随着强化学习在LLMs中起到越发重要的作用,决定学习效果的因素——奖励模型,已成为制约性能的瓶颈因素。

在最近的工作中,我们试图寻找通用的奖励模型,并惊奇的发现,满足我们期望的通用奖励模型,早已内生于用“next-token prediction”训练的大语言模型中,并由此首次给出了强化学习可以提升语言模型性能的数学证明。以往需要单独进行的reward model学习阶段已不必须,同时该方法可自然扩展到文字以外的其他模态上。

图片

 

论文链接:https://arxiv.org/abs/2506.23235

从昂贵的奖励模型学习到模型自评估的探索

自ChatGPT问世以来,强化学习从人类反馈中学习(RLHF) 就成为了构建顶尖大型语言模型的黄金标准。这个流程的核心,是训练一个独立的奖励模型(Reward Model, RM)。这个RM的任务是学会理解人类的偏好,通过给模型的不同输出打分,来引导LLM生成更符合人类期望(如更有帮助、更诚实、更无害)的内容。

然而,训练一个高质量的奖励模型,需要收集一个庞大的人类偏好数据集,是一个极其缓慢、昂贵且难以规模化的过程,构成了LLM对齐流程中最主要的瓶颈之一。另外,当偏好变化时,还需要再重新收集新的数据,不具备通用化的能力。

为了绕过这个瓶颈,学术界和工业界开始探索新的路径,例如从AI反馈中进行强化学习(RLAIF)和“LLM即裁判”(LLM-as-a-judge)框架等。这类方法使用一个“教师模型”(如GPT-4)来代替人类标注员,生成奖励信号或偏好标签。这些方法虽然显著降低了成本,但在很大程度上是启发式的,缺乏坚实的理论基础。

于是我们开展了一个探索,我们的原始动机在于,既然LLMs从海量预训练和SFT数据中学习,这些数据本身就蕴含了人类的价值观,如果可以从这些海量但未标注奖励信号的数据中直接学习出一个通用的奖励模型,那么就可以更加高效和灵活的为LLMs设置奖励。沿着这一方向,我们最终发现,如此的一个通用奖励模型,并不需要额外学习,在现在的LLMs中已经天然存在了。

逆强化学习——学习奖励的理想途径

我们的理论探索始于一个洞察:RLHF中的奖励建模过程,可以被看作是逆向强化学习(Inverse Reinforcement Learning, IRL) 的一个特例。

IRL的目标与标准的强化学习恰好相反:它不是根据已知的奖励函数来学习最优策略,而是试图从“专家”的示范行为中,反推出其背后遵循的奖励函数。IRL是学习一个能够解释专家数据的奖励函数的最自然的原则性框架。

在RLHF中,我们通过比较成对的“winner”和“loser”输出来训练奖励模型。这本质上是一种样本级别(sample-level)的比较。而IRL,特别是最大熵IRL,则是在一个更高的分布级别(distribution-level)上进行操作。它寻找一个奖励函数,使得在该奖励下,专家的整个行为分布(而不仅仅是单个样本)与任何其他可能策略相比,都具有最大的优势。

因此,RLHF可以被理解为对更普适的IRL框架的一种计算上更易于处理的简化实现。这个认识是我们的出发点:与其依赖简化的成对比较,我们能否直接回归到更根本的IRL框架,来找到那个理想的奖励函数呢?

答案是肯定的。我们采用了离线逆向强化学习 的方法,它允许我们仅从一个静态的专家行为数据集(在LLM的场景下,就是其预训练或监督微调的数据)中学习。该方法的目标是找到一个Q-函数(状态-动作价值函数),使其能够最好地解释专家数据。其优化目标如下(这里用代表Q函数,和代表第个样本在第步的状态和动作,是温度系数, 是词汇表):

这里的关键一步,是我们发现上述看似复杂的优化问题,可以通过简单的对数-指数变换,等价地改写为:

这个形式我们非常熟悉。它正是在寻找一个策略  (通过对Q值进行Softmax得到),使其能够最大化专家数据集的似然。而这,恰恰就是LLM进行“next-token prediction”训练时所做的事情

因此,我们得出了一个结论: 任何通过下一词元预测训练的LLM,其输出的 logits 函数(我们记为  ),本身就是上述原则性离线IRL问题的一个解。 我们可以直接令估计的Q函数  。

有了作为Q-函数的logits,我们就可以使用“逆向软贝尔曼算子”(inverse soft Bellman operator)来直接计算出每一步的内生奖励(Endogenous Reward)(我们记为  ):

其中

这意味着,我们只需要利用模型进行一次前向传播,获得每个词元的logits,就可以计算出整个生成序列的奖励,完全无需训练一个独立的奖励模型。

工作的意义

对齐范式的转变 最直接的影响是,传统RLHF流程中独立的、“奖励建模”阶段可能将变得不再必要。

增强的个性化与可控性 与外部奖励模型的“一刀切”不同,内生奖励是动态且可控的。可以通过设计不同的自然语言指令(Prompt)来“提问”,从而引导模型在RL训练中优化不同的价值维度,使得动态、交互式的个性化对齐成为可能。

强化学习模型蒸馏 我们的框架可以直接从强大的教师模型中提取其内生奖励信号,来对一个更小的学生模型进行RL微调。

将强化学习扩展至文本之外 对于图像、视频、音频等模态,收集人类偏好数据比文本更加困难。我们的方法原则上适用于任何自回归结构的生成模型。只要模型能够生成序列,我们就能从中提取内生奖励,这为在这些领域应用强化学习、提升模型质量和可控性提供了一条可扩展的路径。

部分实验

基于Qwen-2.5-7B-Instruct模型,表1和图1对比了不同奖励模型对偏好数据集的分类准确率,内生奖励EndoRM获得了较高的准确率。

图片

 

表2显示,即使在数学推理任务上,使用EndoRM来做强化学习,也可以显著提升模型能力

图片

 如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

 

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐