为什么Deepseek r1用了grpo而不是ppo？grpo哪些地方比ppo好，主要改进和两者的优劣和异同是哪些？

本报告将探讨 DeepSeek R1 选择 GRPO 的原因，分析 GRPO 相对于 PPO 的优势，并详细比较两者的优劣和异同，基于 2025 年 1 月和 2 月的最新研究文献。一个意想不到的细节是，DeepSeek R1-Zero 在完全跳过 SFT 的情况下，通过 GRPO 训练后，在 AIME 2024 的 pass@1 得分从 15.6% 提高到 71.0%，甚至通过多数投票达到 86

AI生成曾小健

1564人浏览 · 2025-03-07 00:30:43

AI生成曾小健 · 2025-03-07 00:30:43 发布

1)为什么Deepseek r1用了grpo而不是ppo？grpo哪些地方比ppo好，主要改进和两者的优劣和异同是哪些？

引言

DeepSeek R1 是一种开源推理模型，2025 年初发布，表现出色，尤其在数学、代码和推理任务上与 OpenAI-o1 相当。其训练过程采用 Group Relative Policy Optimization (GRPO) 而非传统的 Proximal Policy Optimization (PPO)，引发了学术界的广泛讨论。本报告将探讨 DeepSeek R1 选择 GRPO 的原因，分析 GRPO 相对于 PPO 的优势，并详细比较两者的优劣和异同，基于 2025 年 1 月和 2 月的最新研究文献。

DeepSeek R1 使用 GRPO 的原因

根据 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning，DeepSeek R1-Zero 完全跳过监督微调（SFT）阶段，直接通过大规模强化学习（RL）训练，展现出强大的推理能力。以下是原因：

资源效率：GRPO 不需要单独的价值网络，显著降低了内存和计算需求。这对训练如 DeepSeek R1 这样的大型语言模型至关重要，尤其在硬件资源受限的场景下。根据 The Math Behind DeepSeek: A Deep Dive into Group Relative Policy Optimization (GRPO)，GRPO 通过群组响应计算优势值，省去了价值网络的开销。
直接 RL 训练：传统 RLHF 流程通常包括 SFT 阶段以初始化策略，但 DeepSeek R1-Zero 直接从基础模型（DeepSeek-V3-Base）开始 RL 训练，这在 DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge 中被强调为一个创新。GRPO 的群组方法更适合从头探索推理能力，减少对高质量标注数据的依赖。
推理任务的适应性：GRPO 特别适合推理任务，如数学和代码生成。根据 A Deep Dive into Group Relative Policy Optimization (GRPO) Method: Enhancing Mathematical Reasoning in Open Language Models，其群组方法通过生成多个响应并比较，鼓励模型探索复杂问题解决的多样化策略。

GRPO 相对于 PPO 的主要改进

GRPO 的核心改进包括：

无价值网络：GRPO 使用群组平均奖励作为基线，无需训练价值网络，降低了内存占用和计算成本。根据 Understanding Group Relative Policy Optimization (GRPO): Powering DeepSeekMath and DeepSeek-R1，这使 GRPO 特别适合资源受限的场景。
直接 RL 能力：GRPO 支持从基础模型直接进行 RL 训练，减少了 SFT 阶段的需要。根据 A vision researcher’s guide to some RL stuff: PPO & GRPO，这显示了 GRPO 在数据效率上的潜力。
群组方法：GRPO 通过生成多个响应并计算群组平均奖励，可能更适合推理任务的多样化探索。根据 Why GRPO is Important and How it Works，这种方法在数学推理和长链推理中表现优异。

一个意想不到的细节是，DeepSeek R1-Zero 在完全跳过 SFT 的情况下，通过 GRPO 训练后，在 AIME 2024 的 pass@1 得分从 15.6% 提高到 71.0%，甚至通过多数投票达到 86.7%，与 OpenAI-o1-0912 相当（DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning）。

GRPO 和 PPO 的优劣与异同比较

以下是详细比较，基于 Technical Deep Dive: GRPO vs PPO 和相关文献：

方面	GRPO	PPO
价值网络	不需要，基线为群组平均奖励	需要，训练单独的价值函数估计状态价值
优势计算	ai=si−meansp a_i = s_i - \text{mean}_s^p ，基于群组	At=Rt−V(st) A_t = R_t - V(s_t)，基于学习的价值函数
计算效率	更高，无需训练价值网络	较低，需额外训练价值网络
内存使用	较低，无价值网络存储需求	较高，需存储价值网络参数
方差	可能较高，依赖群组大小kkk	较低，价值函数训练可降低方差
稳定性	通过剪切和KL散度确保，类似PPO	通过剪切和价值函数更新确保
适用场景	资源受限的大型模型训练，推理任务	资源充足，需高精度估计的场景

相似点

两者都是强化学习算法，目标是优化策略以最大化累积奖励。
两者都使用某种优势函数来更新策略，并采用剪切代理目标（如 $$\min(r_t \cdot A_t, \text{clip}(r_t, 1 - \epsilon, 1 + \epsilon) \cdot A_t)$$稳定更新。
两者可能都包括 KL 散度正则化以控制策略变化。

不同点

价值估计：GRPO 使用群组平均奖励作为基线，而 PPO 依赖学习的价值函数。根据 DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge，GRPO 的基线更简单但可能方差较高。
资源需求：GRPO 在内存和计算上更高效，适合大型模型；PPO 因价值网络而资源需求更高。
训练流程：GRPO 支持直接 RL 训练，无需 SFT，而 PPO 通常在 SFT 后应用。根据 A vision researcher’s guide to some RL stuff: PPO & GRPO，这使 GRPO 在数据效率上更具优势。
任务适应性：GRPO 更适合推理任务，如数学和代码生成；PPO 更通用，适用于多种 RL 场景。

优劣分析

GRPO 的优势：资源效率高，适合大型模型；支持直接 RL 训练，减少 SFT 需求；群组方法可能在推理任务中表现更好。
GRPO 的劣势：优势估计可能方差较高，尤其群组大小小时；基线不具备泛化能力，仅限于每个提示的群组。
PPO 的优势：价值函数训练可降低方差，提供更准确的估计；适用范围广，稳定性较高。
PPO 的劣势：资源需求高，训练价值网络增加内存和计算成本；对大型模型可能不经济。

实际应用与讨论

GRPO 在 DeepSeek R1 的训练中表现出色，尤其在跳过 SFT 后仍能达到高推理性能。根据 DeepSeek R1: Understanding GRPO and Multi-Stage Training，其群组方法在资源受限场景下表现优异。然而，其性能依赖于群组大小

kkk

，需要权衡计算成本与估计精度。

与 PPO 相比，GRPO 更适合教育技术等需要快速迭代的领域，根据 AWS | Community | Deep dive into Group Relative Policy Optimization (GRPO)，其群组奖励框架降低了蒙特卡洛模拟的复杂性。

结论

DeepSeek R1 选择 GRPO 而非 PPO，主要是因为 GRPO 在资源效率和推理任务适应性上的优势。GRPO 无需价值网络，支持直接 RL 训练，并通过群组方法优化推理能力。尽管可能在优势估计上方差较高，但其在 DeepSeek R1 的成功应用显示了其潜力。未来研究可聚焦于优化群组大小和减少方差，以进一步提升 GRPO 的适用性。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla