大模型对齐算法(三): DMPO

本文提出DMPO方法，将单回合的DPO扩展至多回合语言代理场景。通过将策略约束替换为状态-动作占用度量约束，并引入长度归一化因子，解决了多回合场景下partition function无法约简的问题。该方法在Bradley-Terry模型中实现轨迹长度归一化，使不同长度轨迹的累积奖励可比，同时通过衰减权重降低后期动作噪声影响。理论推导表明，DMPO能有效减少行为克隆在多回合任务中的累积误差，实现对

Jay Kay

619人浏览 · 2025-08-18 11:20:06

Jay Kay · 2025-08-18 11:20:06 发布

Direct Multi-Turn Preference Optimization for Language Agents（DMPO）

把单回合的 DPO 直接推广到多回合（agent）场景，核心是把“策略约束”换成“状态-动作占用度量（SAOM）约束”并在 Bradley-Terry 模型里做长度归一化，从而消掉 partition function Z。

1 问题背景

• 直接用 BC（行为克隆）在多回合任务里会累积误差（compounding error）。
• 单回合 DPO 依赖 partition function Z(s) 只与 s 有关，可约掉；多回合里 Z(s) 与整条轨迹有关，无法约掉。
• 本文提出 DMPO，把约束“πθ 与 πref 的 KL”换成“dπθ 与 dπref 的 KL”，并引入长度归一化，使 Z 变为常数可消。

2 公式推导（从 DPO → DMPO）

2.1 单回合 DPO 的目标函数

$\max_{\pi_\theta}\; \mathbb{E}_{\tau}\!\left[\sum_{t=0}^{T-1}\gamma^t r(s_t,a_t)\right] \beta\,D_{\text{KL}}\!\bigl[\pi_\theta(\cdot|s)\bigm\|\pi_{\text{ref}}(\cdot|s)\bigr] \tag{1}$

2.2 Bradley-Terry（BT）模型（单回合）

$p(a^w \succ a^l \mid s_0) = \sigma\!\Bigl(r(s_0,a^w)-r(s_0,a^l)\Bigr) \tag{2}$

2.3 单回合 DPO 的闭式解

$\pi^*(a|s)=\frac{1}{Z(s)}\pi_{\text{ref}}(a|s)\exp\!\bigl(r(s,a)/\beta\bigr) \tag{3}$

2.4 多回合最优状态–动作占用度量（SAOM）

$d^{\pi^*}(s,a)=\frac{1}{Z}\,d^{\pi_{\text{ref}}}(s,a)\exp\!\bigl(r(s,a)/\beta\bigr) \tag{4}$

2.5 多回合 BT 模型（未归一化）

$p(\tau^w \succ \tau^l \mid s_0) = \sigma\!\Bigl(\sum_{t=0}^{T^w-1}\gamma^t r(s_t^w,a_t^w) -\sum_{t=0}^{T^l-1}\gamma^t r(s_t^l,a_t^l)\Bigr) \tag{5}$

6 DMPO 的 RL 目标（SAOM 约束）

$\max_{\pi_\theta}\; \mathbb{E}_{(s,a)\sim d^{\pi_\theta}}\!\bigl[r(s,a)\bigr] -\beta\,D_{\text{KL}}\!\bigl[d^{\pi_\theta}\bigm\| d^{\pi_{\text{ref}}}\bigr] \tag{6}$

7 长度归一化因子

$\text{norm}(T)=\frac{1-\gamma}{1-\gamma^T} \tag{7}$

8 归一化后的 BT 模型

$p(\tau^w \succ \tau^l \mid s_0) = \sigma\!\Bigl( \text{norm}(T^w)\sum_{t=0}^{T^w-1}\gamma^t r(s_t^w,a_t^w) -\text{norm}(T^l)\sum_{t=0}^{T^l-1}\gamma^t r(s_t^l,a_t^l) \Bigr) \tag{8}$

9 DMPO 损失函数

$\mathcal{L}_{\text{DMPO}} = -\mathbb{E}_{(s_0,\tau^w,\tau^l)\sim\mathcal{D}} \log\sigma\!\Bigl( \sum_{t=0}^{T^w-1}\beta\,\varphi(t,T^w)\log\frac{\pi_\theta(a_t^w|s_t^w)}{\pi_{\text{ref}}(a_t^w|s_t^w)} \sum_{t=0}^{T^l-1}\beta\,\varphi(t,T^l)\log\frac{\pi_\theta(a_t^l|s_t^l)}{\pi_{\text{ref}}(a_t^l|s_t^l)} \Bigr) \tag{9}$

3 直观解释

• SAOM 约束迫使策略在所有状态-动作对上逼近专家分布，减少因专家数据未覆盖而随机动作导致的累积误差。
• 长度归一化使不同长度轨迹的累积 reward 可比，从而消掉 Z。
• φ(t,T) 随 t 衰减 → 早期动作权重更高，进一步抑制后期噪声。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大