美团:长链推理提升LLM奖励模型
如何评估和改进在复杂推理场景下的奖励模型 (Reward Models, RMs) 的性能?论文提出了一个综合框架,通过学习思考方法改进生成奖励模型,并引入了新的评估基准 Libra Bench 和生成奖励模型系列 Libra-RM。

📖标题:Libra: Assessing and Improving Reward Model by Learning to Think
🌐来源:arXiv, 2507.21645
🌟摘要
强化学习 (RL) 显着提高了大型语言模型的推理能力。然而,当前的奖励模型在具有挑战性的推理场景中表现不佳,主要的 RL 训练范式依赖于基于规则的奖励或基于参考的奖励,这施加了两个关键限制:1)对精细注释的参考答案的依赖以获得奖励; 2) 约束输出格式的要求。这些限制从根本上阻碍了进一步的 RL 数据缩放和持续增强模型推理性能。为了解决这些限制,我们提出了一个全面的框架来评估和提高奖励模型在复杂推理场景中的性能。我们首先提出了一个面向推理的基准(Libra Bench),它是从各种具有挑战性的数学问题和高级推理模型集合中系统地构建的,以解决现有奖励模型基准在推理场景中的局限性。我们进一步引入了一种新的方法,通过学习思考方法来改进生成奖励模型。基于所提出的方法,我们开发了 Libra-RM 系列,这是一种生成奖励模型的集合,具有推理能力,在各种基准上实现了最先进的结果。进行了全面的下游实验,实验结果证明了我们的Libra Bench和下游应用之间的相关性,以及Libra-RM的潜力,以进一步改进未标记数据推理模型。
🛎️文章简介
🔸研究问题:如何评估和改进在复杂推理场景下的奖励模型 (Reward Models, RMs) 的性能?
🔸主要贡献:提出了一个综合框架,通过学习思考方法改进生成奖励模型,并引入了新的评估基准 Libra Bench 和生成奖励模型系列 Libra-RM。
📝重点思路
🔸建立了Libra Bench,用于评估点对点判断准确性,特别是在复杂推理任务中的表现。
🔸设计了一种新颖的方法结合拒绝采样和强化学习,以优化生成奖励模型的性能。
🔸通过分阶段的训练流程,将验证过程视为可验证的任务。
🔸引入长链推理 (Long-CoT reasoning) 的理念,以提升奖励模型在推理场景中的准确性。
🔎分析总结
🔸Libra-RM系列在复杂推理任务中表现优异,比现有的奖励模型和Judge方法都要准确,特别是在Libra Bench评测中。
🔸实验显示,增强模型的基本回答能力以及结合非判断数据的训练能显著提高模型的整体性能。
🔸通过多阶段训练,强化学习在增强模型性能方面起到了至关重要的作用,尤其是在从预训练模型和SFT模型初始化时。
🔸研究表明,Libra Bench的准确性与下游任务的表现有着密切的相关性,彰显了其对于指导RM优化的实用价值。
💡个人观点
论文结合强化学习和拒绝采样的生成奖励模型的优化方法,并通过全新的基准来系统性地评估和改进奖励模型在复杂推理任务中的表现。
🧩附录

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)