在这里插入图片描述

📖标题:Posterior-GRPO: Rewarding Reasoning Processes in Code Generation
🌐来源:arXiv, 2508.05170

🌟摘要

强化学习 (RL) 对大型语言模型 (LLM) 具有显着先进的代码生成。然而,当前的范式依赖于测试用例中基于结果的奖励,而忽略了中间推理过程的质量。虽然直接监督推理过程是一个很有前途的方向,但它非常容易受到奖励黑客的影响,其中策略模型学习利用推理奖励信号而不改善最终结果。为了解决这个问题,我们引入了一个统一框架,可以有效地结合 RL 过程中推理过程的质量。首先,为了实现推理评估,我们开发了 LCB-RB,这是一个基准,包括偏好对优越和劣推理过程。其次,为了准确地对推理质量进行评分,我们引入了一种基于优化的(基于 OD)的奖励模型训练方法。该方法通过系统地优化和降低推理质量策划维度的初始推理路径来生成高质量的偏好对,例如事实准确性、逻辑严谨性和连贯性。使用这种方法的 7B 参数奖励模型在 LCB-RB 上实现了最先进的性能,并可以很好地推广到其他基准。最后,我们介绍了 Posterior-GRPO (P-GRPO),这是一种新的 RL 方法,它根据基于过程的奖励来调节任务成功。通过选择性地将奖励应用于仅成功结果的推理过程,P-GRPO 有效地减轻了奖励黑客并将模型的内部推理与最终代码正确性对齐。P-GRPO 的 7B 参数模型在不同的代码生成任务中取得了卓越的性能,比仅结果的基线高出 4.5%,实现了与 GPT-4-Turbo 相当的性能。我们通过将我们的方法扩展到数学任务来进一步证明我们方法的普遍性。我们的模型、数据集和代码是公开的。

🛎️文章简介

🔸研究问题:如何优化大语言模型(LLM)中的推理过程,以提高代码生成的能力?
🔸主要贡献:论文提出了一种新方法P-GRPO,通过结合推理奖励和结果奖励来增强模型的推理能力,从而改善代码生成的性能。

📝重点思路

🔸引入优化-降级(OD)方法,在训练奖励模型时生成优化和降级的推理过程,以便有效区分推理质量。
🔸设计了一个针对推理过程评估的基准LCB-RB,以测试奖励模型的有效性。
🔸开发P-GRPO算法,该算法通过思维奖励、结果奖励与格式奖励的组合,提高策略模型优化过程的质量。
🔸使用强大的LLM生成多个具有推理过程的代码解决方案,利用GPT-4o验证推理的正确性和一致性。

🔎分析总结

🔸P-GRPO在代码生成测试中相较于基线模型平均提升了13.9%的表现,显示了其在多种标准上的有效性。
🔸奖励模型使用OD方法相较于传统方法在推理质量的辨别上有显著提高,尤其在LCB-RB基准中得到了良好的表现。
🔸P-GRPO在数学任务中也表现出强大的普适性,进一步说明了其方法的广泛适用性。
🔸实验结果表明,推理过程的质量对最终代码的正确性有显著影响,强调了推理过程与结果之间的重要关联。

💡个人观点

论文将推理过程的奖励引入强化学习框架中,强调推理质量对代码生成的重要性,并通过优化-降级方法和新的奖励模型设计显著提升了LLM的代码生成能力。

🧩附录

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐