【NLP 58、利用trl框架训练LLM】

TRL 是一个利用监督微调（SFT）、近端策略优化（PPO）和直接偏好优化（DPO）等先进技术后训练基础模型的尖端库。构建在生态系统之上，TRL 支持多种模型架构和模态，并且可以跨各种硬件配置进行扩展。

L_cl

1442人浏览 · 2025-04-11 12:23:05

L_cl · 2025-04-11 12:23:05 发布

孤独总比忍受傻逼好得多

—— 25.4.11

源代码网页：

项目文件预览 - trl:Train transformer language models with reinforcement learning. - GitCode

TRL —— 变压器强化学习

trl：一个用于后训练基础模型的全面库

1.概述

TRL 是一个利用监督微调（SFT）、近端策略优化（PPO）和直接偏好优化（DPO）等先进技术后训练基础模型的尖端库。构建在 🤗 Transformers 生态系统之上，TRL 支持多种模型架构和模态，并且可以跨各种硬件配置进行扩展。

2.特色

Ⅰ、高效且可拓展

利用 🤗 Accelerate 实现从单 GPU 到多节点集群的扩展，采用 DDP 和 DeepSpeed 等方法。
与 PEFT 完全集成，通过量化和 LoRA/QLoRA 在普通硬件上训练大型模型。
集成 Unsloth 以使用优化核心加速训练。

Ⅱ、命令行界面（CLI）

一个简单的界面让您能够在不编写代码的情况下微调并与模型交互。

Ⅲ、训练器

通过如 SFTTrainer、DPOTrainer、RewardTrainer、ORPOTrainer 等训练器轻松访问各种微调方法。

Ⅳ、自动模型

使用预定义的模型类如 AutoModelForCausalLMWithValueHead 来简化与大型语言模型（LLM）的强化学习（RL）。

3.安装

Ⅰ、Python 包

使用 pip 安装该库：

pip3 install trl

使用国产源下载：

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple trl

Ⅱ、从源代码安装

pip3 install git+https://github.com/huggingface/trl.git

Ⅲ、仓库

git clone https://github.com/huggingface/trl.git

4.命令行界面（CLI）

使用 TRL 命令行界面（CLI）快速入门监督微调（SFT）和直接偏好优化（DPO），或者使用聊天CLI来检测你的模型表现

网址：命令行界面（CLI）

Ⅰ、SFT

trl sft --model_name_or_path Qwen/Qwen2.5-0.5B \
    --dataset_name trl-lib/Capybara \
    --output_dir Qwen2.5-0.5B-SFT

Ⅱ、数据保护官

trl dpo --model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
    --dataset_name argilla/Capybara-Preferences \
    --output_dir Qwen2.5-0.5B-DPO

Ⅲ、聊天

trl chat --model_name_or_path Qwen/Qwen2.5-0.5B-Instruct

详细了解，请点击上文的《网址》，查看相关文档部分

5.使用方法

为了提供更多灵活性和对训练过程的控制，TRL 提供了专门的训练器类，用于在自定义数据集上对语言模型或 PEFT 适配器进行后训练。TRL 中的每个训练器都是 🤗 Transformers 训练器的轻量级封装，并原生支持分布式训练方法，如 DDP、DeepSpeed ZeRO 和 FSDP。

Ⅰ、SFTTrainer

from trl import SFTConfig, SFTTrainer
from datasets import load_dataset

dataset = load_dataset("trl-lib/Capybara", split="train")

training_args = SFTConfig(output_dir="Qwen/Qwen2.5-0.5B-SFT")
trainer = SFTTrainer(
    args=training_args,
    model="Qwen/Qwen2.5-0.5B",
    train_dataset=dataset,
)
trainer.train()

Ⅱ、奖励训练器使用基础示例

from trl import RewardConfig, RewardTrainer
from datasets import load_dataset
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
model = AutoModelForSequenceClassification.from_pretrained(
    "Qwen/Qwen2.5-0.5B-Instruct", num_labels=1
)
model.config.pad_token_id = tokenizer.pad_token_id

dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")

training_args = RewardConfig(output_dir="Qwen2.5-0.5B-Reward", per_device_train_batch_size=2)
trainer = RewardTrainer(
    args=training_args,
    model=model,
    processing_class=tokenizer,
    train_dataset=dataset,
)
trainer.train()

Ⅲ、GRPOTrainer

GRPOTrainer 实现了群组相对策略优化（GRPO）算法，该算法相较于PPO在内存效率上更优，并被用于训练Deepseek AI的R1。

from datasets import load_dataset
from trl import GRPOConfig, GRPOTrainer

dataset = load_dataset("trl-lib/tldr", split="train")

# Dummy reward function: rewards completions that are close to 20 characters
def reward_len(completions, **kwargs):
    return [-abs(20 - len(completion)) for completion in completions]

training_args = GRPOConfig(output_dir="Qwen2-0.5B-GRPO", logging_steps=10)
trainer = GRPOTrainer(
    model="Qwen/Qwen2-0.5B-Instruct",
    reward_funcs=reward_len,
    args=training_args,
    train_dataset=dataset,
)
trainer.train()

Ⅳ、DPOTrainer

DPOTrainer 实现了广受欢迎的直接偏好优化（DPO）算法，该算法被用于对Llama 3以及其他众多模型进行后训练。

from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOConfig, DPOTrainer

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
training_args = DPOConfig(output_dir="Qwen2.5-0.5B-DPO")
trainer = DPOTrainer(model=model, args=training_args, train_dataset=dataset, processing_class=tokenizer)
trainer.train()

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大