1)为什么Deepseek r1用了grpo而不是ppo?grpo哪些地方比ppo好,主要改进和两者的优劣和异同是哪些?

引言

DeepSeek R1 是一种开源推理模型,2025 年初发布,表现出色,尤其在数学、代码和推理任务上与 OpenAI-o1 相当。其训练过程采用 Group Relative Policy Optimization (GRPO) 而非传统的 Proximal Policy Optimization (PPO),引发了学术界的广泛讨论。本报告将探讨 DeepSeek R1 选择 GRPO 的原因,分析 GRPO 相对于 PPO 的优势,并详细比较两者的优劣和异同,基于 2025 年 1 月和 2 月的最新研究文献。

DeepSeek R1 使用 GRPO 的原因

根据 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,DeepSeek R1-Zero 完全跳过监督微调(SFT)阶段,直接通过大规模强化学习(RL)训练,展现出强大的推理能力。以下是原因:

  1. 资源效率:GRPO 不需要单独的价值网络,显著降低了内存和计算需求。这对训练如 DeepSeek R1 这样的大型语言模型至关重要,尤其在硬件资源受限的场景下。根据 The Math Behind DeepSeek: A Deep Dive into Group Relative Policy Optimization (GRPO),GRPO 通过群组响应计算优势值,省去了价值网络的开销

  2. 直接 RL 训练:传统 RLHF 流程通常包括 SFT 阶段以初始化策略,但 DeepSeek R1-Zero 直接从基础模型(DeepSeek-V3-Base)开始 RL 训练,这在 DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge 中被强调为一个创新。GRPO 的群组方法更适合从头探索推理能力,减少对高质量标注数据的依赖。

  3. 推理任务的适应性:GRPO 特别适合推理任务,如数学和代码生成。根据 A Deep Dive into Group Relative Policy Optimization (GRPO) Method: Enhancing Mathematical Reasoning in Open Language Models,其群组方法通过生成多个响应并比较,鼓励模型探索复杂问题解决的多样化策略。

GRPO 相对于 PPO 的主要改进

GRPO 的核心改进包括:

一个意想不到的细节是,DeepSeek R1-Zero 在完全跳过 SFT 的情况下,通过 GRPO 训练后,在 AIME 2024 的 pass@1 得分从 15.6% 提高到 71.0%,甚至通过多数投票达到 86.7%,与 OpenAI-o1-0912 相当(DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。

GRPO 和 PPO 的优劣与异同比较

以下是详细比较,基于 Technical Deep Dive: GRPO vs PPO 和相关文献:

方面 GRPO PPO
价值网络 不需要,基线为群组平均奖励 需要,训练单独的价值函数估计状态价值
优势计算 ai=si−meansp
a_i = s_i - \text{mean}_s^p ,基于群组
At=Rt−V(st)
A_t = R_t - V(s_t),基于学习的价值函数
计算效率 更高,无需训练价值网络 较低,需额外训练价值网络
内存使用 较低,无价值网络存储需求 较高,需存储价值网络参数
方差 可能较高,依赖群组大小kkk 较低,价值函数训练可降低方差
稳定性 通过剪切和KL散度确保,类似PPO 通过剪切和价值函数更新确保
适用场景 资源受限的大型模型训练,推理任务 资源充足,需高精度估计的场景

相似点

  • 两者都是强化学习算法,目标是优化策略以最大化累积奖励。

  • 两者都使用某种优势函数来更新策略,并采用剪切代理目标(如 $$\min(r_t \cdot A_t, \text{clip}(r_t, 1 - \epsilon, 1 + \epsilon) \cdot A_t)$$稳定更新。

  • 两者可能都包括 KL 散度正则化以控制策略变化。

不同点

优劣分析

  • GRPO 的优势:资源效率高,适合大型模型;支持直接 RL 训练,减少 SFT 需求;群组方法可能在推理任务中表现更好。

  • GRPO 的劣势:优势估计可能方差较高,尤其群组大小小时;基线不具备泛化能力,仅限于每个提示的群组。

  • PPO 的优势:价值函数训练可降低方差,提供更准确的估计;适用范围广,稳定性较高。

  • PPO 的劣势:资源需求高,训练价值网络增加内存和计算成本;对大型模型可能不经济。

实际应用与讨论

GRPO 在 DeepSeek R1 的训练中表现出色,尤其在跳过 SFT 后仍能达到高推理性能。根据 DeepSeek R1: Understanding GRPO and Multi-Stage Training,其群组方法在资源受限场景下表现优异。然而,其性能依赖于群组大小

kkk

,需要权衡计算成本与估计精度。

与 PPO 相比,GRPO 更适合教育技术等需要快速迭代的领域,根据 AWS | Community | Deep dive into Group Relative Policy Optimization (GRPO),其群组奖励框架降低了蒙特卡洛模拟的复杂性。

结论

DeepSeek R1 选择 GRPO 而非 PPO,主要是因为 GRPO 在资源效率和推理任务适应性上的优势。GRPO 无需价值网络,支持直接 RL 训练,并通过群组方法优化推理能力。尽管可能在优势估计上方差较高,但其在 DeepSeek R1 的成功应用显示了其潜力。未来研究可聚焦于优化群组大小和减少方差,以进一步提升 GRPO 的适用性。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐