清华与上海AI Lab发布LLM推理能力强化学习综述

智能体在环境中观察到“状态”（State），并根据其“策略”（Policy）选择一个“动作”（Action），执行动作后，智能体会得到一个“奖励”（Reward），并进入一个新的状态。这篇论文的发布，不仅为研究人员提供了宝贵的参考，也向所有人揭示了RL与LLM结合所蕴含的巨大潜力，预示着一个由RL驱动的，能够自主推理、自我完善的超智能时代的到来。动态采样允许模型在与环境互动时生成新的、多样化的数据

zenRRan

1332人浏览 · 2025-09-12 13:34:29

zenRRan · 2025-09-12 13:34:29 发布

长久以来，强化学习（RL）一直被视为驱动人工智能迈向超人能力的关键技术，其成功的典范莫过于DeepMind的AlphaGo，它通过自我博弈和奖励信号，超越了围棋世界冠军的水平。在大语言模型（LLM）的浪潮中，RL最初以“从人类反馈中学习的强化学习”（RLHF）形式崭露头角，主要用于将模型行为与人类偏好对齐，使其输出更具帮助性、诚实性和无害性。

然而，一个全新的、更具野心的趋势正在涌现：利用RL来直接激励模型的推理能力，从而催生出“大型推理模型”（LRMs）。这与以往仅仅调整模型“说话方式”的做法截然不同。OpenAI的o1和DeepSeek-R1等开创性工作证明，通过对数学题的正确答案或代码的单元测试通过率等“可验证奖励”（RLVR）进行强化训练，模型能够执行诸如规划、反思和自我纠正等复杂的长篇推理。这揭示了一个除了预训练数据和模型参数规模之外，新的、互补的性能扩展维度——“推理计算”（reasoning compute） 。

论文：A Survey of Reinforcement Learning for Large Reasoning Models
地址：https://arxiv.org/pdf/2509.08827

该综述正是在这一背景下应运而生，它旨在全面回顾RL在LRMs中的应用，深入剖析其基本组成、核心问题、训练资源和下游应用，并展望未来的发展方向。它不仅仅是对过往成就的梳理，更是对未来如何进一步利用RL推动人工智能迈向“人工超智能”（ASI）的战略性思考。

理论基础：RL与LLM的结合

RL核心概念与LLM的角色映射

要理解RL如何赋能LLM，首先需要把握RL的基本框架。在一个标准的RL循环中，有一个“智能体”（Agent）和一个“环境”（Environment）。智能体在环境中观察到“状态”（State），并根据其“策略”（Policy）选择一个“动作”（Action），执行动作后，智能体会得到一个“奖励”（Reward），并进入一个新的状态。这个过程持续进行，智能体的目标就是通过不断地尝试和学习，最大化其获得的累积奖励。

当我们将LLM置于这个框架中时，概念的映射变得直观且有趣。一个提示或任务（Prompt/Task）被视为初始状态。LLM本身就是智能体，而它生成的一系列标记（token）则被看作是智能体在每一步所采取的动作。已生成的文本序列和原始提示共同构成了当前状态。奖励通常在模型完成整个响应后一次性给予，不过也有一些方法会赋予每一步生成标记一个奖励。

如上图所示，RL的基本组成部分与LLM作为智能体的角色得到了清晰的映射。

关键数学公式：目标函数

在RL中，智能体的学习目标是最大化其在所有可能轨迹上的期望累积奖励。这个目标可以通过以下数学公式来表示：

这个公式看起来复杂，但思想非常简单：

：我们的目标是找到一组最佳的模型参数（也就是语言模型本身），来最大化某个目标函数。
：这就是我们要最大化的目标函数，它代表了策略的性能。
：这表示“期望值”，即在所有可能的输入（）和模型生成的响应（）上的平均性能。
：输入来自一个数据分布，这代表了现实世界中可能遇到的所有任务或提示。
：模型的响应是根据当前模型参数所决定的策略生成的。
：这是模型对输入给出响应后获得的奖励。

简单来说，这个公式的核心思想是：通过不断调整模型的参数，使模型在面对各种任务时，能够生成获得最高平均奖励的响应。这篇论文后续探讨的各种RL算法，都是基于这个基本思想，并在此之上加入了不同的技巧和约束来提高训练的稳定性和效率。在实践中，为了保持模型的语言流畅性并防止其偏离预训练时的能力，通常会加入一些正则化项（如KL散度惩罚），将学习后的策略约束在与原始模型相近的范围内。

构建RL-for-LRMs的基石

奖励设计（Reward Design）

奖励信号是驱动RL训练的“灵魂”，本综述详细讨论了多种奖励设计方法，揭示了奖励设计的艺术和科学。

可验证奖励（Verifiable Rewards）： 这是最直接、最客观的奖励类型。例如，在数学任务中，如果模型的答案正确，它就获得正奖励；在编程任务中，如果代码通过了单元测试，它也获得奖励。这种奖励的优点是客观、明确，但缺点是只适用于有明确正确答案的任务，并且可能忽略了模型生成答案的过程质量。
生成式奖励（Generative Rewards）： 这种奖励不依赖于预定义的规则，而是由一个单独训练的“奖励模型”来评分。例如，一个奖励模型可以评估LLM生成的回应是否符合人类偏好或特定的标准。这种方法更具通用性，但奖励模型本身可能存在偏见或不一致性。
无监督奖励（Unsupervised Rewards）： 旨在从无标签数据中自动提取奖励信号。例如，通过最大化熵（MaxEnt）来鼓励模型探索更多样的行为，或者利用模型自身的困惑度（Perplexity）来衡量生成质量。
奖励塑形（Reward Shaping）： 这是一种通过提供额外、密集的奖励信号来引导模型学习过程的技术。它不是改变最终的目标，而是像给模型“提供路标”一样，帮助它更快地找到正确的方向。一个例子是，在长篇推理任务中，为模型每一步正确的思考链提供奖励，以鼓励其生成高质量的中间步骤。

策略优化（Policy Optimization）

有了奖励信号，下一步就是优化模型的策略以最大化累积奖励。

策略梯度（Policy Gradient）： 这是最基础的RL优化方法，它直接通过计算策略对目标函数的梯度来进行优化。例如，PPO（Proximal Policy Optimization）就是一种广泛使用的策略梯度算法，它在每次更新时对策略变化进行限制，从而保证训练的稳定。
基于评论家（Critic-based Algorithms）： 这类算法引入了一个名为“评论家”（Critic）的额外网络，它负责估计当前状态下采取某个动作的长期价值。智能体（即LLM）根据评论家的建议来调整其策略，从而更有效地进行学习。
无评论家（Critic-Free Algorithms）： 与上述方法相反，这类算法不使用单独的价值网络，而是直接通过比较不同轨迹的奖励来优化策略。例如，DPO（Direct Preference Optimization）就是一种流行的无评论家算法，它直接从人类偏好数据中学习一个最优策略，而无需显式地训练奖励模型或价值网络。
正则化目标（Regularization Objectives）： 为了防止模型在强化学习过程中“忘记”其原始的语言能力，通常会在优化目标中加入正则化项，例如KL散度（KL-Divergence），它确保学习后的策略不会与原始策略（SFT模型）相差太远。

采样策略（Sampling Strategy）

采样策略决定了智能体如何从环境中收集数据来学习。

动态与结构化采样（Dynamic and Structured Sampling）： 动态采样允许模型在与环境互动时生成新的、多样化的数据，而结构化采样则确保生成的数据具有特定的格式或结构，例如，遵循逻辑链或特定的问题解决步骤。
采样超参数（Sampling Hyper-parameters）： 这包括温度（temperature）和束搜索（beam search）等参数的调整，它们可以影响模型的探索性或确定性，从而在生成内容的创造性和准确性之间取得平衡。

前沿探索：当前面临的根本性挑战

该综述不仅回顾了技术，更直面了RL应用于LRMs的五个根本性问题，这些问题至今仍存在争议。

RL的角色：精炼还是发现？

精炼（Sharpening）： RL是否仅仅是用来“精炼”或“微调”模型已有的能力？就像用磨刀石磨砺一把刀，让其变得更锋利？
发现（Discovery）： RL是否能够帮助模型“发现”全新的、在预训练数据中从未见过的推理能力？这就像是教一个从未用过刀的人如何用刀来雕刻艺术品。
该综述认为，RL在两个角色中都扮演着重要作用，但其在“发现”新能力方面的潜力仍有待充分挖掘。

RL vs. SFT：泛化还是记忆？
- SFT（Supervised Fine-Tuning）： 通过在高质量数据集上进行监督微调，可以使模型学会“记忆”特定的模式和知识。
- RL： 通过与环境互动，RL能使模型学会“泛化”，即使遇到新的、未见过的任务，也能应用已有的推理能力。
- 一个关键的挑战是，这两种训练范式之间存在潜在的“紧张关系”：提升推理能力可能会损害指令遵循能力。
模型先验：弱先验与强先验
- 弱先验（Weak Prior）： 指那些未经过大量SFT训练，或未针对特定任务进行优化的基础模型。这些模型在RL训练下，推理能力有显著提升。
- 强先验（Strong Prior）： 指那些已经通过SFT或指令微调的模型。研究表明，RL也可以进一步提升这些模型的性能，但需要更精心的设计和控制。
- 这篇综述指出，对于弱先验模型，一种有效的策略是先通过SFT增强其推理先验，然后再进行RLVR训练。
训练秘籍：技巧还是陷阱？
- 在RL训练中，有大量的“技巧”被提出，如特定的数据混合、课程学习（curriculum learning）等。然而，这些技巧中哪些是真正有效的，哪些可能只是在特定条件下凑效的“陷阱”，仍是未解之谜。
奖励类型：过程还是结果？
- 结果奖励（Outcome Reward）： 仅在任务完成后给予，例如答案正确或不正确。
- 过程奖励（Process Reward）： 在推理的每一步骤中给予奖励，例如模型生成的思考链（Chain-of-Thought）是否逻辑清晰、步骤正确。
- 这两种奖励类型各有优劣，结果奖励简单客观，而过程奖励则能更细致地引导模型的推理过程。
应用与展望

广泛应用

RL-for-LRMs的应用已超越了传统的语言任务，深入到多个前沿领域。
- 编程任务： RL在编程中表现出色，它能根据单元测试的通过情况来优化代码生成，甚至在多模态理解方面也取得了显著进步。
- 智能体任务（Agentic Tasks）： RL被用于训练可以与外部工具和环境交互的“智能体”，例如执行网页浏览、API调用等复杂任务。
- 多模态任务： RL能够增强模型在图像、视频和3D空间中的推理能力，通过为多模态任务设计可验证的奖励函数，实现了强大的泛化能力。
- 机器人与医疗： RL被应用于机器人控制，使其能从网络知识中学习并执行复杂任务。在医疗领域，RL也用于增强模型的医学知识推理能力，例如通过分析电子病历来辅助临床决策。
以下图表展示了近年来RL赋能下的代表性模型发展历程：

以下表格详细列举了部分开源推理模型的关键信息：

未来方向

该综述还为RL和LLM的未来研究指明了九个充满潜力的方向。
- 持续强化学习（Continual RL）： 使模型能够像人类一样，在面对新任务时不断学习和适应。
- 基于记忆的RL（Memory-based RL）： 赋予LLM强大的记忆能力，使其能够在长时间的互动中更好地利用和回忆信息。
- 基于模型的RL（Model-based RL）： 让LLM学会构建一个内部的“世界模型”，从而能够像人类一样进行前瞻性规划和预测。
- RL用于LLM预训练： 将RL集成到LLM的预训练阶段，而不仅仅是作为微调手段。
结论

这篇综述全面且深入地解读了RL在推动大语言模型向更强大的推理模型（LRMs）演进中的关键作用。论文的核心贡献在于，它系统性地梳理了RL的基本理论、核心技术、前沿挑战以及在广泛应用中的实践，并为未来的研究提供了明确的方向性指导 。

通过RL，我们看到了LLM能力扩展的崭新路径，即通过激励推理本身，而非仅仅依赖数据和参数规模的增长。从最初的RLHF到如今的RLVR，RL已经从一个用于“对齐行为”的工具，蜕变为一个能够“铸造智能”的核心技术。这篇论文的发布，不仅为研究人员提供了宝贵的参考，也向所有人揭示了RL与LLM结合所蕴含的巨大潜力，预示着一个由RL驱动的，能够自主推理、自我完善的超智能时代的到来。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla