揭示隐藏联系:RLHF/DPO即对比学习!
大型语言模型(LLM)如ChatGPT、Claude等的强大能力令人惊叹,但让它们的输出真正符合人类价值观(如安全、有用、诚实)却是个巨大挑战。当前的主流技术是**基于人类反馈的强化学习**。简单来说,就是让人给模型的不同回答打分(比如选A比B好),然后训练一个“奖励模型”去模仿人的打分标准,最后用强化学习(如PPO算法)微调模型,让它追求高分奖励。这个过程复杂、昂贵且不稳定。后来出现的**直接偏
大型语言模型(LLM)如ChatGPT、Claude等的强大能力令人惊叹,但让它们的输出真正符合人类价值观(如安全、有用、诚实)却是个巨大挑战。当前的主流技术是基于人类反馈的强化学习。简单来说,就是让人给模型的不同回答打分(比如选A比B好),然后训练一个“奖励模型”去模仿人的打分标准,最后用强化学习(如PPO算法)微调模型,让它追求高分奖励。这个过程复杂、昂贵且不稳定。后来出现的直接偏好优化简化了流程,它绕过了显式的奖励模型训练,直接用偏好数据微调模型,效率高且效果接近RLHF。
然而,DPO在实践中暴露出严重问题:在训练后期,模型不仅降低了对“被拒绝回答”的偏好,连“被选中的好回答”的偏好也一起降低了(称为“同步崩溃”),这尤其损害模型在数学推理等复杂任务上的表现。更根本的疑问是:RLHF/DPO真的能让模型学会基座模型本身不具备的新推理能力吗? 一些实验发现,强化学习训练后模型展现的推理路径,其实在基座模型生成结果的分布里已经存在了,强化学习可能只是放大了这些已有能力。

- 论文:The Hidden Link Between RLHF and Contrastive Learning
- 链接:https://arxiv.org/pdf/2506.22578
本文从一个全新的角度切入——互信息最大化与对比学习。作者证明了:
- RLHF和DPO本质是特殊的对比学习:它们都在最大化模型与“好回答分布”的互信息,同时最小化与“坏回答分布”的互信息,并使用了一个叫MINE的互信息估计器。
- RLHF无法突破基座模型的能力天花板:如果基座模型对某个正确答案的生成概率是零,RLHF也无法无中生有。
- MINE估计器是DPO崩溃的元凶之一:它方差高,梯度不稳定。
- 提出MIO算法:用更稳定的JS估计器替换MINE,有效解决了崩溃问题,在多个高难度数学推理基准上达到SOTA。
这篇论文不仅在理论上建立了RLHF与对比学习的深刻联系,还基于此理解设计出更优的算法,解决了实际痛点,对推动大模型安全对齐技术的发展具有重要意义。
统一的理论框架:RLHF/DPO即对比学习
核心视角:互信息最大化作者提出了一个革命性的观点:无论是复杂的RLHF还是简洁的DPO,其核心目标都可以统一理解为一种对比学习任务。具体来说:
- 假设存在一个理想的“优选模型” π,它专门生成人类偏好的回答 。
- 存在一个“劣选模型” π,它生成不被偏好的回答 。
- 我们要优化的目标模型 πθ,其目标是与 π 的互信息尽可能大,同时与 π 的互信息尽可能小。
互信息衡量的是两个变量(这里是两个概率分布)之间的“关联程度”或“共享信息量”。最大化 πθ 和 π 的互信息,意味着让 πθ 的行为越来越像 π;最小化与 π 的互信息,意味着让 πθ 的行为越来越不像 π。这恰恰是对比学习的核心思想:拉近正样本(好回答),推远负样本(坏回答)。目标函数可形式化为:θπθπ and θπθπ
推导:从互信息到MINE估计器,再到RLHF/DPO互信息 本身很难直接计算。作者引入了互信息神经估计方法。其核心是利用一个由神经网络参数化的函数 φ 来估计互信息的一个下界(称为DV下界或MINE估计器):πθπφφφ
- :在 πθ 和 π 的联合分布上计算期望(即同时采样 和来自 π 的 )。
- :在 πθ 和混合分布 πππ 的乘积分布上计算期望(即采样 ,然后独立地采样 来自 π)。
论文的核心观点——RLHF(PPO/DPO)过程就像对比学习:将目标策略推近优选模型 π(包含更多正确路径),推离劣选模型 π(包含更多错误路径)。基模型包含正确和错误路径,经过优化后,目标策略更倾向于选择正确路径。
通过一系列数学推导(涉及蒙特卡洛采样近似和特定的 φ 函数形式选择),作者令人惊讶地发现:
-
当选择 φπθππθπ 并代入推导公式时,得到的目标函数完全等同于DPO的目标函数:θσβπθπβπθπ
-
- σ 是sigmoid函数,β 是温度参数,π 是基座模型(SFT模型)。
- 意义:这揭示了DPO本质上是在用 π 作为参考,通过一个特定的 φ 函数形式,优化一个基于MINE估计器的互信息目标。
-
当将 φπθππθπ 代入MINE目标并进行近似时,得到的目标函数等价于RLHF第二阶段(策略优化)的常见形式:θφπθπ
-
- 意义:这揭示了RLHF策略更新阶段本质上也是在优化一个互信息目标,并且近似误差的大小与策略偏离参考模型的程度 (πθπ) 有关。这从理论上解释了为什么PPO需要裁剪(clipping) 策略更新的幅度——大的偏离会导致大的近似误差,损害性能。
关键结论:RLHF(特别是其策略优化阶段)和DPO都可以严格地统一到基于MINE估计器的互信息最大化框架下,它们本质上是对比学习的一种具体实现形式。这个统一框架为理解现有方法的优缺点和设计新方法奠定了基础。
理论洞见:RLHF无法扩展基模型能力
在建立了RLHF/DPO即对比学习的理论框架后,作者利用该框架回答了一个关键争议:RLHF训练是否能赋予大模型超越其基座模型的全新推理能力?
能力边界的严格定义作者给出了一个清晰而严格的定义:对于一个输入问题 及其正确答案 ,我们说模型 πθ有能力正确回答该问题,当且仅当模型给正确答案分配了非零概率,即 πθ。反之,如果 πθ,则模型没有能力给出这个正确答案。
**理论证明:为什么RLHF只能放大已有能力?**基于第2部分建立的互信息框架和模型定义,作者进行了严密的推理:
-
基座模型的角色:在标准的RLHF/DPO设置中,基座模型 π 是冻结的,并作为参考模型(或KL约束的中心)。
-
优选模型 π 的本质:论文将 π 建模为一个基于能量的模型,它实质上是基座模型 π 的能量重加权版本:ππα
-
- 是隐式或显式的奖励函数。
- 是归一化常数(配分函数)。
- 关键点:π 的支撑集完全包含在 π 的支撑集之内。这意味着 π 只能给 π 已经赋予非零概率的那些回答 重新分配概率权重。它不能创造出 π 认为绝对不可能(概率为零)的新回答。
-
优化目标的局限:RLHF/DPO的目标是让目标策略 πθ 尽可能接近 π。既然 π 无法跳脱出 π 的能力范围(支撑集),那么 πθ 最终也只能在 π 的能力范围内进行优化。
-
决定性结论:如果基座模型 π 对某个正确答案 的生成概率为零,即 π,那么无论奖励模型学习得多好,也无论后续的强化学习或DPO训练进行得多充分,目标模型 πθ 都不可能学会生成这个答案 **。RLHF/DPO只能调整模型在**已有非零概率的备选答案之间的偏好(提高好答案的概率,降低坏答案的概率),而无法创造出基座模型本身不具备的新能力或新知识。
对现有争议的解释这一理论完美解释了Yue et al. (2025) 等人的实验观察:经过RL训练后模型展现出的推理路径,大多仍然落在基座模型本身的采样分布范围内。因为基座模型(经过大规模预训练和SFT)已经蕴含了丰富的知识和潜在推理路径,RLHF的作用主要是放大那些能导向人类偏好答案的已有路径,并抑制那些导致不良答案的路径,而非从零开始构建全新的、基座模型完全没“想过”的推理方式。该理论为“RLHF是否真能扩展能力”的争论提供了坚实的理论依据。
MIO方法:基于JS估计器的新算法
认识到现有RLHF/DPO基于MINE估计器存在缺陷,并受对比学习中更稳定方法的启发,作者提出了新算法——互信息优化。
MINE(DV界)的缺陷:高方差与不稳定性作者指出,第2部分推导中使用的MINE估计器(基于Donsker-Varadhan, DV下界)存在显著问题:
- 高方差:其梯度的方差会随着真实的互信息值增大而指数级增长。这导致训练过程中梯度爆炸,需要非常大的批次大小才能稳定。
- 估计偏差:当真实互信息值远大于 ( 是负样本数量)时,MINE会严重低估互信息值。
- 低负样本下的灾难:在LLM对齐任务中,每个提示通常只配对一个被拒绝的回答 (),即 。在这种情况下,MINE的方差极高,梯度更新极不稳定。负样本的微小扰动会显著影响估计值和梯度方向。
JS估计器的优势:梯度稳定性分析作者转向Jensen-Shannon互信息估计器,它在对比学习中被认为更稳定:
πθπθπθφπφ
- 是softplus函数。
- π 仍是混合分布 ππ。
通过双变量高斯分布的合成实验,清晰对比了MINE和JSD两种估计器在 时的表现。左图显示两者都能捕捉真实互信息趋势;右图是核心,它展示了JSD估计器产生的梯度方差远低于MINE,尤其是在低负样本()和变量相关性(ρ)较高时。
理论分析和图2表明,虽然JSD在互信息值估计的绝对精度上不一定总是超越MINE,但它在梯度稳定性(尤其是低负样本 的典型对齐场景下)上具有压倒性优势。因为对齐的目标是最大化互信息而非精确估计其数值,使用能提供更可靠梯度的JSD估计器是更优选择。
MIO损失函数推导与核心设计作者将第2部分推导中的MINE目标替换为JSD目标,并采用与推导DPO时相同的蒙特卡洛采样近似(,即一个正样本 和一个负样本 )以及对 φ 的限制形式 (φππθπθπ),最终推导出一个闭式解的损失函数——Mutual-Information Optimization (MIO) :
θππθπθππθπ
- 第一项ππθ:鼓励 πθ 对 的概率不低于π。当 πθ 小于 π 时,此项起主导作用,推动 πθ 增大对好答案的概率。
- 第二项πθπ:当 πθ 对 的概率过度高于π(可能过拟合)时,此项会温和地抑制它,防止过度自信。
- 第三项πθπ:强力抑制模型对坏答案 的概率。只要 πθ,此项就倾向于将其降低。
直观理解:MIO的设计精髓在于其不对称性和自调节机制:
- 对好答案 :它像一个智能调节器。如果模型对好答案的信心不足(低于参考模型),就大力鼓励;如果信心过强(远高于参考模型),就稍微“踩下刹车”防止过拟合。这避免了DPO后期对好答案更新的消失。
- 对坏答案 :它像一个坚定的抑制器,持续施压降低其概率。
- 稳定性来源:这种结构天然地规避了MINE中导致高方差的 φ 项,其梯度行为更平滑可控。
MIO继承了DPO的单阶段、无需奖励模型的优点,同时通过使用更稳定的JS估计器,从根本上解决了DPO的训练不稳定和同步崩溃问题。
实验验证:MIO的性能优势
作者通过精心设计的实验,从可视化和定量两个层面验证了MIO的有效性。
Toy Model:可视化DPO崩溃与MIO的鲁棒性为了精确模拟和放大DPO的崩溃现象,作者构建了一个离散空间的玩具模型:
- 4个提示(),10个可能的回答()。
- 回答分为三类:被选中的(前4维)、被拒绝的(中间4维)、未见的(最后2维)。
- 目标策略 πθ 是一个小型三层MLP。
- 偏好数据:每个提示 有一个最优 ,构成一个“对角线”偏好矩阵。每个训练批次包含一个 三元组。
玩具模型的设置,左图是理想策略(高亮块代表最优回答),右图是偏好数据构造方式(对角线配对)。
此图是实验部分的核心可视化结果!它直观对比了DPO和MIO在四种不同初始响应概率场景下的训练动态:
- 选中和被拒响应概率都很小。
- 选中正常,被拒很小(模拟DPO训练后期)。
- 选中很小,被拒正常。
- 两者都正常。
关键:在场景2(被拒响应概率很小) 下,DPO出现了灾难性的同步崩溃(Chosen和Rejected的似然同步下降)。而在所有场景下,MIO都完全不受此故障模式影响,它能持续提升Chosen概率并抑制Rejected概率。此图是证明MIO解决DPO崩溃问题的直接、有力证据,必须在此处重点展示。)
真实LLM实验:数学与推理基准测试结果在真实的大模型(Mistral-7B-Base)和真实的大规模人类偏好数据集(UltraFeedback-Binarized, 64K 样本)上,作者微调模型,并在8个极具挑战性的数学和推理基准上评估性能:
- Hendrycks MATH:12500个竞赛级数学题 + “困难”子集。
- Minerva Math:GSM8K和MATH提炼的定量推理题。
- MultiMedQA:涵盖USMLE、PubMedQA等的6个医疗QA基准。
- MathQA:37000个带可执行原理的多选数学应用题。
- GSM8K:8500道小学数学题。
- AQuA-RAT:10万道带自由文本解的代数题。
- MATH Hard:Hugging Face Open LLM Leaderboard中的高难度数学子集。
- MuSR:需要在700-1000词故事上进行多步软推理的叙事任务。
论文最重要的性能对比结果!它全面展示了MIO与SFT、DPO、IPO、KTO、NCA、ORPO、SimPO、SLIC、DIL等主流基线方法在8个数学推理基准上的性能(数值越高越好)。
关键结论:MIO在Hendrycks Math、MultiMedQA、MathQA、AQuA-RAT、MATH Hard这5个任务上取得最佳性能,在GSM8K上排名第二,在Minerva Math和MuSR上也表现优异(第二/第三)。这充分证明了MIO在提升复杂推理和数学能力方面的显著优势,是论文核心贡献的量化体现,必须在此处展示。)
MIO如何防止Chosen-Reward崩溃
在真实Mistral-7B训练过程中,不同方法对“选中回答奖励”和“拒绝回答奖励”的影响。
关键发现:
- DPO、IPO、ORPO:都出现了同步下降(Chosen Reward下降,Rejection Reward也下降),即有害的“同步崩溃”。
- MIO:显著提升了Chosen Reward,同时降低了Rejection Reward。这直观验证了MIO的设计目标——有效增强对齐(提升好答案),同时避免对好答案的遗忘/抑制。 此图是证明MIO解决核心问题(崩溃)并在实际训练中奏效的直接证据,应在此处展示。)
理论分析:MIO为何优于DPO?
实验证明了MIO的有效性,作者进一步从理论上剖析了DPO崩溃的根源和MIO稳定的机制。
DPO崩溃模式(同步退化)的数学根源作者解析了DPO损失函数 关于选中回答概率 π⁺πθ⁺ 和被拒绝回答概率 π⁻πθ⁻ 的梯度:
π⁺αβαββπ⁺π⁻αβαββπ⁺
其中 π⁻π⁺, απ⁺π⁻β。
关键观察:负样本梯度幅值相对于正样本梯度幅值的比率为:π⁻π⁺π⁺π⁻
-
灾难性后果:当被拒绝回答的概率 π⁻趋近于0(这正是DPO训练后期希望达到的状态)时,π⁺π⁻ 会变得极大。这意味着:
-
- 负样本的梯度幅值 π⁻趋向于无穷大。
- 正样本的梯度幅值 π⁺趋向于0。
-
同步崩溃的发生:在典型的语言生成中,被选中的好回答 和被拒绝的坏回答 通常共享大量的相同token。当 π⁻ 时,作用于这些共享token上的、巨大的负样本梯度无法被已经消失的正样本梯度抵消。结果,模型被迫同时降低包含这些共享token的所有回答(包括 和 )的生成概率。这就是实验中观察到的“同步似然崩溃”的理论根源。
**MIO稳定性的理论保证(选择性抑制与自调节梯度)**作者分析了MIO损失 的梯度行为,并证明了两个关键命题:
-
命题 5.1 (选择性抑制负样本) :
π⁻βπ⁻σ⁻π⁻π⁺βπ⁺σ⁺
-
- σ⁺σβ⁺, ⁺π⁺π⁺。
- 意义:MIO依然能强力抑制被拒绝的回答(负样本梯度发散),但关键区别在于它对选中回答(正样本)的梯度 π⁺始终保持有界,不会趋向于零!这意味着即使在训练后期 (π⁻),MIO依然能提供有意义的、非零的信号去调整和维持(甚至继续提升)好答案 的概率,从而避免同步崩溃。
-
命题 5.2 (自调节正样本梯度) :
π⁺βπ⁺σ⁺
该梯度的符号取决于 σ⁺ 的值:
-
- 如果模型对某个“好token”/好答案的信心还不足(σ⁺),梯度为负,鼓励增大其概率。
- 如果模型对某个“好token”/好答案已经过度自信(σ⁺),梯度会反转方向变为正,温和地向下推动其概率,防止过拟合。
-
- (推动 π⁺ 减小) 如果 σ⁺ (即 π⁺ 相对于 π⁺ 已经过高)
- (推动 π⁺ 增大) 如果 σ⁺ (即 π⁺ 相对于 π⁺ 还不足够高)
- 意义:MIO对正样本 () 的梯度是一个智能的自适应控制器:
- 本质:这相当于一个隐式的自步课程学习。优化资源会自动从已经学得很好的正样本重新分配到信息量更大、更难的正样本上。这使得MIO相比DPO具有更优的鲁棒性和样本效率。
理论总结:MIO通过其独特的损失函数设计(源自JS估计器),在数学上保证了:
- 对负样本持续有效的抑制。
- 对正样本梯度的有界性和自适应性。 这两点共同作用,彻底解决了DPO因梯度消失/爆炸导致的同步崩溃问题,并提升了泛化性能,尤其是在依赖精细推理的任务上。
结论与意义
本文通过建立RLHF/DPO与对比学习的深刻理论联系,提出并验证了创新的MIO算法,为解决大模型人类偏好对齐的关键挑战做出了重要贡献:
-
理论统一与洞见:
-
- 首次严格证明了RLHF和DPO本质上是互信息最大化框架下的一种对比学习,其核心是优化基于Donsker-Varadhan (DV) / MINE估计器的目标。这一框架统一了看似不同的方法。
- 基于该框架,理论证明了RLHF无法扩展基座模型的能力边界。它只能放大和精炼基座模型中已有的推理模式,而不能创造全新的能力。这为相关实验争议提供了理论解释。
-
创新算法MIO:
-
- 指出MINE估计器是导致DPO训练不稳定和后期“同步崩溃”的根源之一(高方差)。
- 提出用Jensen-Shannon (JS) 互信息估计器替代MINE,显著提高了梯度稳定性。
- 基于JS估计器推导出互信息优化算法。MIO是一个单阶段、无需显式奖励模型的端到端优化方法。
- 理论证明MIO能避免DPO的梯度消失问题,保持对正样本的有效学习信号,并具备自适应的梯度调节机制防止过拟合。
-
卓越的实验性能:
-
- Toy Model可视化:清晰展示了DPO的崩溃模式,并验证MIO对此免疫。
- 大规模LLM实验:在8个高难度数学和推理基准上,MIO显著优于DPO及其主流变体(IPO, KTO, NCA, ORPO, SimPO, SLIC, DIL),在5项任务中达到SOTA,其余任务也名列前茅。
- 验证了MIO能有效防止Chosen-Reward崩溃,持续提升好答案的奖励。
研究价值与影响:
- 理论价值:建立了RLHF与对比学习、信息论之间的桥梁,深化了对现有对齐方法工作机制的理解,特别是揭示了RLHF的能力局限性和DPO的不稳定性根源。
- 实用价值:MIO提供了一种更稳定、更高效、性能更优(尤其在复杂推理任务上)的LLM对齐方案。其单阶段、无需奖励模型的特性简化了训练流程,降低了计算成本。
- 未来方向:本文主要探索了JS估计器。未来研究可以探索其他互信息估计器(如NWJ, CPC, SMILE等)在LLM对齐任务中的潜力。此外,如何将MIO的理论优势扩展到多轮对话、多模态对齐等更复杂场景也值得探索。
总之,这项工作不仅增进了我们对大模型对齐本质的理解,还提供了切实有效的工具,为构建更安全、更可靠、更强大的AI系统铺平了道路。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)