为什么Deepseek r1用了grpo而不是ppo?grpo哪些地方比ppo好,主要改进和两者的优劣和异同是哪些?
本报告将探讨 DeepSeek R1 选择 GRPO 的原因,分析 GRPO 相对于 PPO 的优势,并详细比较两者的优劣和异同,基于 2025 年 1 月和 2 月的最新研究文献。一个意想不到的细节是,DeepSeek R1-Zero 在完全跳过 SFT 的情况下,通过 GRPO 训练后,在 AIME 2024 的 pass@1 得分从 15.6% 提高到 71.0%,甚至通过多数投票达到 86
1)为什么Deepseek r1用了grpo而不是ppo?grpo哪些地方比ppo好,主要改进和两者的优劣和异同是哪些?
引言
DeepSeek R1 是一种开源推理模型,2025 年初发布,表现出色,尤其在数学、代码和推理任务上与 OpenAI-o1 相当。其训练过程采用 Group Relative Policy Optimization (GRPO) 而非传统的 Proximal Policy Optimization (PPO),引发了学术界的广泛讨论。本报告将探讨 DeepSeek R1 选择 GRPO 的原因,分析 GRPO 相对于 PPO 的优势,并详细比较两者的优劣和异同,基于 2025 年 1 月和 2 月的最新研究文献。
DeepSeek R1 使用 GRPO 的原因
根据 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,DeepSeek R1-Zero 完全跳过监督微调(SFT)阶段,直接通过大规模强化学习(RL)训练,展现出强大的推理能力。以下是原因:
-
资源效率:GRPO 不需要单独的价值网络,显著降低了内存和计算需求。这对训练如 DeepSeek R1 这样的大型语言模型至关重要,尤其在硬件资源受限的场景下。根据 The Math Behind DeepSeek: A Deep Dive into Group Relative Policy Optimization (GRPO),GRPO 通过群组响应计算优势值,省去了价值网络的开销。
-
直接 RL 训练:传统 RLHF 流程通常包括 SFT 阶段以初始化策略,但 DeepSeek R1-Zero 直接从基础模型(DeepSeek-V3-Base)开始 RL 训练,这在 DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge 中被强调为一个创新。GRPO 的群组方法更适合从头探索推理能力,减少对高质量标注数据的依赖。
-
推理任务的适应性:GRPO 特别适合推理任务,如数学和代码生成。根据 A Deep Dive into Group Relative Policy Optimization (GRPO) Method: Enhancing Mathematical Reasoning in Open Language Models,其群组方法通过生成多个响应并比较,鼓励模型探索复杂问题解决的多样化策略。
GRPO 相对于 PPO 的主要改进
GRPO 的核心改进包括:
-
无价值网络:GRPO 使用群组平均奖励作为基线,无需训练价值网络,降低了内存占用和计算成本。根据 Understanding Group Relative Policy Optimization (GRPO): Powering DeepSeekMath and DeepSeek-R1,这使 GRPO 特别适合资源受限的场景。
-
直接 RL 能力:GRPO 支持从基础模型直接进行 RL 训练,减少了 SFT 阶段的需要。根据 A vision researcher’s guide to some RL stuff: PPO & GRPO,这显示了 GRPO 在数据效率上的潜力。
-
群组方法:GRPO 通过生成多个响应并计算群组平均奖励,可能更适合推理任务的多样化探索。根据 Why GRPO is Important and How it Works,这种方法在数学推理和长链推理中表现优异。
一个意想不到的细节是,DeepSeek R1-Zero 在完全跳过 SFT 的情况下,通过 GRPO 训练后,在 AIME 2024 的 pass@1 得分从 15.6% 提高到 71.0%,甚至通过多数投票达到 86.7%,与 OpenAI-o1-0912 相当(DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。
GRPO 和 PPO 的优劣与异同比较
以下是详细比较,基于 Technical Deep Dive: GRPO vs PPO 和相关文献:
| 方面 | GRPO | PPO |
| 价值网络 | 不需要,基线为群组平均奖励 | 需要,训练单独的价值函数估计状态价值 |
| 优势计算 | ai=si−meansp a_i = s_i - \text{mean}_s^p ,基于群组 |
At=Rt−V(st) A_t = R_t - V(s_t),基于学习的价值函数 |
| 计算效率 | 更高,无需训练价值网络 | 较低,需额外训练价值网络 |
| 内存使用 | 较低,无价值网络存储需求 | 较高,需存储价值网络参数 |
| 方差 | 可能较高,依赖群组大小kkk | 较低,价值函数训练可降低方差 |
| 稳定性 | 通过剪切和KL散度确保,类似PPO | 通过剪切和价值函数更新确保 |
| 适用场景 | 资源受限的大型模型训练,推理任务 | 资源充足,需高精度估计的场景 |
相似点
-
两者都是强化学习算法,目标是优化策略以最大化累积奖励。
-
两者都使用某种优势函数来更新策略,并采用剪切代理目标(如 $$\min(r_t \cdot A_t, \text{clip}(r_t, 1 - \epsilon, 1 + \epsilon) \cdot A_t)$$稳定更新。
-
两者可能都包括 KL 散度正则化以控制策略变化。
不同点
-
价值估计:GRPO 使用群组平均奖励作为基线,而 PPO 依赖学习的价值函数。根据 DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge,GRPO 的基线更简单但可能方差较高。
-
资源需求:GRPO 在内存和计算上更高效,适合大型模型;PPO 因价值网络而资源需求更高。
-
训练流程:GRPO 支持直接 RL 训练,无需 SFT,而 PPO 通常在 SFT 后应用。根据 A vision researcher’s guide to some RL stuff: PPO & GRPO,这使 GRPO 在数据效率上更具优势。
-
任务适应性:GRPO 更适合推理任务,如数学和代码生成;PPO 更通用,适用于多种 RL 场景。
优劣分析
-
GRPO 的优势:资源效率高,适合大型模型;支持直接 RL 训练,减少 SFT 需求;群组方法可能在推理任务中表现更好。
-
GRPO 的劣势:优势估计可能方差较高,尤其群组大小小时;基线不具备泛化能力,仅限于每个提示的群组。
-
PPO 的优势:价值函数训练可降低方差,提供更准确的估计;适用范围广,稳定性较高。
-
PPO 的劣势:资源需求高,训练价值网络增加内存和计算成本;对大型模型可能不经济。
实际应用与讨论
GRPO 在 DeepSeek R1 的训练中表现出色,尤其在跳过 SFT 后仍能达到高推理性能。根据 DeepSeek R1: Understanding GRPO and Multi-Stage Training,其群组方法在资源受限场景下表现优异。然而,其性能依赖于群组大小
kkk
,需要权衡计算成本与估计精度。
与 PPO 相比,GRPO 更适合教育技术等需要快速迭代的领域,根据 AWS | Community | Deep dive into Group Relative Policy Optimization (GRPO),其群组奖励框架降低了蒙特卡洛模拟的复杂性。
结论
DeepSeek R1 选择 GRPO 而非 PPO,主要是因为 GRPO 在资源效率和推理任务适应性上的优势。GRPO 无需价值网络,支持直接 RL 训练,并通过群组方法优化推理能力。尽管可能在优势估计上方差较高,但其在 DeepSeek R1 的成功应用显示了其潜力。未来研究可聚焦于优化群组大小和减少方差,以进一步提升 GRPO 的适用性。
更多推荐
所有评论(0)