【RL】REINFORCE Leave-One-Out (RLOO)

REINFORCE Leave-One-Out (RLOO) 基于经典的 REINFORCE 策略梯度方法，通过留一法（Leave-One-Out）构造无偏的优势函数基线。我们基于 GRPO（Group Relative Policy Optimization）算法进行对比说明。GRPO vs RLOO 的主要区别GRPO 和 RLOO 都采用组内对比的方式来估计优势函数，避免了全局基线估计带来的

山顶夕景

1155人浏览 · 2025-11-12 01:24:48

山顶夕景 · 2025-11-12 01:24:48 发布

note

文章目录

note
REINFORCE Leave-One-Out (RLOO)
- - GRPO vs RLOO 的主要区别
  - - 区别1：优势函数基线的构造方法
    - 区别2：KL 散度正则化项的处理方式

REINFORCE Leave-One-Out (RLOO)

在这里插入图片描述

REINFORCE Leave-One-Out (RLOO) 基于经典的 REINFORCE 策略梯度方法，通过留一法（Leave-One-Out）构造无偏的优势函数基线。

我们基于 GRPO（Group Relative Policy Optimization）算法进行对比说明。

GRPO vs RLOO 的主要区别

GRPO 和 RLOO 都采用组内对比的方式来估计优势函数，避免了全局基线估计带来的高方差问题。两者的核心区别主要体现在以下两个方面：

区别1：优势函数基线的构造方法

1. GRPO (Group Relative Policy Optimization)

GRPO 对每个 prompt 生成 $G$ 个响应样本，使用组内所有样本的均值和标准差进行标准化：

$\hat{A}_{i} = \frac{R_i - \text{mean}(\{R_j\}_{j=1}^G)}{\text{std}(\{R_j\}_{j=1}^G)}$

其中：

$R_i$ 是第 $i$ 个样本的奖励值
$\text{mean}(\{R_j\}_{j=1}^G) = \frac{1}{G}\sum_{j=1}^G R_j$ 是组内均值
$\text{std}(\{R_j\}_{j=1}^G)$ 是组内标准差

2. RLOO (REINFORCE Leave-One-Out)

RLOO 对每个 prompt 生成 $K$ 个响应样本，使用 留一法（Leave-One-Out） 构造基线，即第 $i$ 个样本的基线为除自己外的其他 $K - 1$ 个样本的均值：

$\hat{A}_{i} = R_i - \frac{1}{K-1}\sum_{j \neq i} R_j$

这个公式可以等价地改写为：

$\hat{A}_{i} = \frac{K}{K-1} \left(R_i - \bar{R}\right)$

其中 $\bar{R} = \frac{1}{K}\sum_{j=1}^K R_j$ 是组内所有样本的均值。

说明：这里使用 $K$ 对齐论文符号，与 GRPO 中的 $G$ 含义一致，均对应配置参数 num_generations

为什么使用留一法？

留一法的关键优势在于无偏性。对于第 $i$ 个样本，其奖励 $R_i$ 和基线 $\frac{1}{K-1}\sum_{j \neq i} R_j$ 是独立的，因此优势估计是无偏的。相比之下，如果使用包含自身的均值作为基线，会引入偏差。

区别2：KL 散度正则化项的处理方式

为防止策略偏离参考策略过远，两种算法都引入了 KL 散度正则化，但处理方式不同：

GRPO：将 KL 散度作为独立的正则化项添加到[损失函数]中：

$\mathcal{L}(\theta) = -\mathbb{E}\left[\hat{A}_i \log \pi_\theta(a_i|s_i)\right] + \beta \cdot \text{KL}(\pi_\theta || \pi_{\text{ref}})$

RLOO：将 KL 散度直接整合到奖励项中，构造修正后的奖励：

$R'_i = R_i - \beta \cdot \text{KL}(\pi_\theta || \pi_{\text{ref}})$

其中 $\beta$ 是 KL 散度的权重系数（对应参数 beta）， $\pi_{\text{ref}}$ 是参考策略（通常是 SFT 模型或初始策略）。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla