agentic rl 数据中,gt是啥?
本文介绍了一个基于Claude-4.5的agent训练方案。通过收集对话轨迹数据,其中assistant角色回复(包含<think>推理和<tool_call>工具调用标记)作为训练目标。训练任务是让模型根据系统提示、用户输入和工具返回结果,生成包含多步推理和工具调用的正确assistant回复。这是一个监督式微调(SFT)任务,重点训练模型在复杂上下文中的推理和决策能力。
·
今天我们准备训练一个agent,
1、数据准备 利用claude-4.5进行轨迹收集,gt 就是role assistant部分,这部分有special token
<think_tool> <tool_call> ,
messages: [
{role: "system", content: "系统提示词..."}, ← 输入上下文
{role: "user", content: "播放Enigma..."}, ← 输入上下文
{role: "assistant", content: "<think>...</think>\n<tool_call>...</tool_call>"}, ← ✅ GT
{role: "tool", content: "{搜索结果...}"}, ← 输入上下文
{role: "assistant", content: "<think>...</think>\n<tool_call>...</tool_call>"}, ← ✅ GT
{role: "tool", content: "{音乐结果...}"}, ← 输入上下文
{role: "assistant", content: "<think>...</think>\n<tool_call>...</tool_call>"} ← ✅ GT
]

训练目标: 模型学习根据上下文(system + user + tool 返回)生成正确的 assistant 回复,包括推理思考和工具调用决策。这是一个多步推理 + 工具调用的 SFT 任务。

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)