PPO前传1：策略梯度算法

策略梯度算法是强化学习中一类直接优化参数化策略 πθ(a∣s)\pi_\theta(a|s)πθ(a∣s) 的方法，通过计算目标函数（通常是累计奖励的期望）关于策略参数 θ\thetaθ 的梯度，并沿着梯度方向更新 θ\thetaθ。在经典的马尔可夫决策过程（MDP）中，我们的目标是找到一个参数 θ\thetaθ 使得期望累计奖励最大化。对于回合制任务（Episodic Tasks），目标函数可

timeflies99

540人浏览 · 2025-10-23 10:51:48

timeflies99 · 2025-10-23 10:51:48 发布

文章优先发布在微信公众号——“LLM大模型”，有些文章未来得及同步，可以直接关注公众号查看

一. 策略梯度算法

策略梯度算法是强化学习中一类直接优化参数化策略 $πθ(a∣s)\pi_\theta(a|s)$ 的方法，通过计算目标函数（通常是累计奖励的期望）关于策略参数 $θ\theta$ 的梯度，并沿着梯度方向更新 $θ\theta$ 。

1.1 目标函数

在经典的马尔可夫决策过程（MDP）中，我们的目标是找到一个参数 $θ\theta$ 使得期望累计奖励最大化。

对于回合制任务（Episodic Tasks），目标函数可以定义为：
$J(θ)=Eτ∼πθ[R(τ)]=Eτ∼πθ[∑t=0Tγtrt]=Es0∼ρ0[Vπθ(s0)]J(\theta) = E_{\tau \sim \pi_\theta} [R(\tau)] = E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \gamma^t r_t \right] = E_{s_0 \sim \rho_0} [V^{\pi_\theta}(s_0)]$
其中：

$τ=(s0,a0,r0,s1,a1,r1,…,sT)\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \dots, s_T)$ 是一条轨迹（trajectory）。
$πθ\pi_\theta$ 是由 $θ\theta$ 参数化的策略。
$R(τ)R(\tau)$ 是轨迹的总折扣奖励。
$ρ0(s0)\rho_0(s_0)$ 是初始状态分布。
$Vπθ(s0)V^{\pi_\theta}(s_0)$ 是策略 $πθ\pi_\theta$ 下的起始状态 $s_0$ 的价值函数。

对于连续型任务（Continuing Tasks），目标函数通常定义为平均奖励：
$J(θ)=∑sμπθ(s)∑aπθ(a∣s)R(s,a)J(\theta) = \sum_s \mu^{\pi_\theta}(s) \sum_a \pi_\theta(a|s) R(s, a)$
其中 $μπθ(s)\mu^{\pi_\theta}(s)$ 是策略 $πθ\pi_\theta$ 下的稳态（或平均）状态分布。

我们主要关注回合制任务的目标函数 $J(θ)J(\theta)$ 的梯度计算。

1.2 策略梯度定理

策略梯度定理是策略梯度算法的基石，它提供了一种计算 $J(θ)J(\theta)$ 关于 $θ\theta$ 的梯度 $∇θJ(θ)\nabla_\theta J(\theta)$ 的通用表达式。

推导过程：

轨迹概率： 一条轨迹 $τ\tau$ 在策略 $πθ\pi_\theta$ 下发生的概率为：
$P(τ;θ)=ρ0(s0)∏t=0TP(st+1∣st,at)πθ(at∣st)P(\tau; \theta) = \rho_0(s_0) \prod_{t=0}^{T} P(s_{t+1}|s_t, a_t) \pi_\theta(a_t|s_t)$
目标函数梯度：
$∇θJ(θ)=∇θEτ∼πθ[R(τ)]=∇θ∑τP(τ;θ)R(τ)\nabla_\theta J(\theta) = \nabla_\theta E_{\tau \sim \pi_\theta} [R(\tau)] = \nabla_\theta \sum_\tau P(\tau; \theta) R(\tau)$
$∇θJ(θ)=∑τ[∇θP(τ;θ)]R(τ)\nabla_\theta J(\theta) = \sum_\tau \left[ \nabla_\theta P(\tau; \theta) \right] R(\tau)$
对数导数技巧 (Log-derivative Trick)： 利用 $∇θP(τ;θ)=P(τ;θ)∇θP(τ;θ)P(τ;θ)=P(τ;θ)∇θlog⁡P(τ;θ)\nabla_\theta P(\tau; \theta) = P(\tau; \theta) \frac{\nabla_\theta P(\tau; \theta)}{P(\tau; \theta)} = P(\tau; \theta) \nabla_\theta \log P(\tau; \theta)$ ，我们有：
$∇θJ(θ)=∑τP(τ;θ)[∇θlog⁡P(τ;θ)]R(τ)\nabla_\theta J(\theta) = \sum_\tau P(\tau; \theta) \left[ \nabla_\theta \log P(\tau; \theta) \right] R(\tau)$
$∇θJ(θ)=Eτ∼πθ[R(τ)∇θlog⁡P(τ;θ)]\nabla_\theta J(\theta) = E_{\tau \sim \pi_\theta} \left[ R(\tau) \nabla_\theta \log P(\tau; \theta) \right]$
展开 $∇θlog⁡P(τ;θ)\nabla_\theta \log P(\tau; \theta)$ ：
$log⁡P(τ;θ)=log⁡(ρ0(s0)∏t=0TP(st+1∣st,at)πθ(at∣st))\log P(\tau; \theta) = \log \left( \rho_0(s_0) \prod_{t=0}^{T} P(s_{t+1}|s_t, a_t) \pi_\theta(a_t|s_t) \right)$
$log⁡P(τ;θ)=log⁡ρ0(s0)+∑t=0Tlog⁡P(st+1∣st,at)+∑t=0Tlog⁡πθ(at∣st)\log P(\tau; \theta) = \log \rho_0(s_0) + \sum_{t=0}^{T} \log P(s_{t+1}|s_t, a_t) + \sum_{t=0}^{T} \log \pi_\theta(a_t|s_t)$
因为 $ρ0(s0)\rho_0(s_0)$ 和 $P(s_{t+1}|s_t, a_t)$ 不依赖于 $θ\theta$ ，所以它们的梯度为 0。
$∇θlog⁡P(τ;θ)=∑t=0T∇θlog⁡πθ(at∣st)\nabla_\theta \log P(\tau; \theta) = \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t)$
最终形式 (REINFORCE)： 代入上式，得到最基础的策略梯度形式（REINFORCE 算法的基础）：
$∇θJ(θ)=Eτ∼πθ[∑t=0TR(τ)∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) = E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} R(\tau) \nabla_\theta \log \pi_\theta(a_t|s_t) \right]$
更通用的策略梯度定理： 可以证明（通过引入状态访问分布和价值函数），梯度可以简化为：
$∇θJ(θ)=∑sμπθ(s)∑a∇θπθ(a∣s)Qπθ(s,a)\nabla_\theta J(\theta) = \sum_s \mu^{\pi_\theta}(s) \sum_a \nabla_\theta \pi_\theta(a|s) Q^{\pi_\theta}(s, a)$
更常用的、基于样本的形式，是将 $R(τ)R(\tau)$ 替换为随后的奖励（即从 $t$ 时刻开始的未来累计折扣奖励）：
$∇θJ(θ)≈Eπθ[∑t=0TGt∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) \approx E_{\pi_\theta} \left[ \sum_{t=0}^{T} G_t \nabla_\theta \log \pi_\theta(a_t|s_t) \right]$
其中 $Gt=∑k=tTγk−trkG_t = \sum_{k=t}^T \gamma^{k-t} r_k$ 是回报 (Return)。

1.3 策略梯度算法的基本形式 (REINFORCE)

REINFORCE（Monte Carlo Policy Gradient）利用策略梯度定理的蒙特卡洛估计：

$∇θJ(θ)≈1M∑i=1M∑t=0TGt(i)∇θlog⁡πθ(at(i)∣st(i))\nabla_\theta J(\theta) \approx \frac{1}{M} \sum_{i=1}^{M} \sum_{t=0}^{T} G_t^{(i)} \nabla_\theta \log \pi_\theta(a_t^{(i)}|s_t^{(i)})$

参数更新：
$θ←θ+α∇θJ(θ)\theta \leftarrow \theta + \alpha \nabla_\theta J(\theta)$
其中 $α\alpha$ 是学习率。

二. 优势函数的由来

REINFORCE是基于策略梯度定理的最基础算法，使用蒙特卡洛采样来估计梯度。

主要缺点：
策略梯度估计的方差（Variance）极高。这是因为回报 $G_t$ 是一个随机变量，其计算依赖于一整条随机轨迹 $τ\tau$ ，梯度估计 $Gt∇θlog⁡πθ(at∣st)G_t \nabla_\theta \log \pi_\theta(a_t|s_t)$ 的方差很大，导致训练过程不稳定且收敛缓慢。

优势函数（Advantage Function） 的引入正是为了解决这个问题，它充当基线 (Baseline) 的作用来减小方差而不改变梯度的期望。

2.1 基线 (Baseline) 的引入

考虑策略梯度的形式：
$∇θJ(θ)=Eπθ[∑t=0TGt∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) = E_{\pi_\theta} \left[ \sum_{t=0}^{T} G_t \nabla_\theta \log \pi_\theta(a_t|s_t) \right]$
我们可以引入一个不依赖于 $a_t$ 的函数 $b(s_t)$ （即基线）来修改梯度估计：
$∇θJ(θ)=Eπθ[∑t=0T(Gt−b(st))∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) = E_{\pi_\theta} \left[ \sum_{t=0}^{T} (G_t - b(s_t)) \nabla_\theta \log \pi_\theta(a_t|s_t) \right]$

证明引入基线不改变期望梯度：

我们需要证明 $Eπθ[∑t=0Tb(st)∇θlog⁡πθ(at∣st)]=0E_{\pi_\theta} \left[ \sum_{t=0}^{T} b(s_t) \nabla_\theta \log \pi_\theta(a_t|s_t) \right] = 0$ 。

考察单个时间步 $t$ 的期望：
$Eπθ[b(st)∇θlog⁡πθ(at∣st)]=∑stμπθ(st)b(st)∑atπθ(at∣st)∇θlog⁡πθ(at∣st)E_{\pi_\theta} \left[ b(s_t) \nabla_\theta \log \pi_\theta(a_t|s_t) \right] = \sum_{s_t} \mu^{\pi_\theta}(s_t) b(s_t) \sum_{a_t} \pi_\theta(a_t|s_t) \nabla_\theta \log \pi_\theta(a_t|s_t)$

利用对数导数技巧的逆操作：
$πθ(at∣st)∇θlog⁡πθ(at∣st)=∇θπθ(at∣st)\pi_\theta(a_t|s_t) \nabla_\theta \log \pi_\theta(a_t|s_t) = \nabla_\theta \pi_\theta(a_t|s_t)$

代入上式：
$]=∑stμπθ(st)b(st)∑at∇θπθ(at∣st)E[\dots] = \sum_{s_t} \mu^{\pi_\theta}(s_t) b(s_t) \sum_{a_t} \nabla_\theta \pi_\theta(a_t|s_t)$

由于 $∑atπθ(at∣st)=1\sum_{a_t} \pi_\theta(a_t|s_t) = 1$ （概率和为 1），所以：
$∑at∇θπθ(at∣st)=∇θ∑atπθ(at∣st)=∇θ(1)=0\sum_{a_t} \nabla_\theta \pi_\theta(a_t|s_t) = \nabla_\theta \sum_{a_t} \pi_\theta(a_t|s_t) = \nabla_\theta (1) = 0$

因此，
$Eπθ[b(st)∇θlog⁡πθ(at∣st)]=∑stμπθ(st)b(st)⋅0=0E_{\pi_\theta} \left[ b(s_t) \nabla_\theta \log \pi_\theta(a_t|s_t) \right] = \sum_{s_t} \mu^{\pi_\theta}(s_t) b(s_t) \cdot 0 = 0$
梯度估计的期望保持不变。

2.2 最佳基线：状态价值函数

为了最大限度地减小方差，我们希望选择一个基线 $b(s_t)$ 使得 $\left( (G_t - b(s_t)) \nabla_\theta \log \pi_\theta(a_t|s_t) \right)$ 最小。

一个理想的基线是状态价值函数 $Vπθ(st)V^{\pi_\theta}(s_t)$ 。

状态价值函数 (State-Value Function): $Vπθ(s)=Eπθ[Gt∣st=s]V^{\pi_\theta}(s) = E_{\pi_\theta} [G_t | s_t = s]$ ，表示在状态 $s$ 下，按照策略 $πθ\pi_\theta$ 行动所能获得的期望回报。
将 $G_t$ 替换为动作价值函数 (Action-Value Function) $Qπθ(st,at)=Eπθ[Gt∣st,at]Q^{\pi_\theta}(s_t, a_t) = E_{\pi_\theta} [G_t | s_t, a_t]$ ，策略梯度可以写为：
$∇θJ(θ)≈Eπθ[∑t=0TQπθ(st,at)∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) \approx E_{\pi_\theta} \left[ \sum_{t=0}^{T} Q^{\pi_\theta}(s_t, a_t) \nabla_\theta \log \pi_\theta(a_t|s_t) \right]$
选择基线 $b(st)=Vπθ(st)b(s_t) = V^{\pi_\theta}(s_t)$ ，梯度表达式变为：
$∇θJ(θ)≈Eπθ[∑t=0T(Qπθ(st,at)−Vπθ(st))∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) \approx E_{\pi_\theta} \left[ \sum_{t=0}^{T} (Q^{\pi_\theta}(s_t, a_t) - V^{\pi_\theta}(s_t)) \nabla_\theta \log \pi_\theta(a_t|s_t) \right]$

2.3 优势函数 (Advantage Function)

我们将 $Qπθ(st,at)−Vπθ(st)Q^{\pi_\theta}(s_t, a_t) - V^{\pi_\theta}(s_t)$ 定义为优势函数 $Aπθ(st,at)A^{\pi_\theta}(s_t, a_t)$ :

$Aπθ(s,a)=Qπθ(s,a)−Vπθ(s)A^{\pi_\theta}(s, a) = Q^{\pi_\theta}(s, a) - V^{\pi_\theta}(s)$

$Aπθ(s,a)A^{\pi_\theta}(s, a)$ 衡量的是在状态 $s$ 下，采取特定动作 $a$ 相比于遵循策略 $πθ\pi_\theta$ 的平均表现（期望价值 $Vπθ(s)V^{\pi_\theta}(s)$ ）好出多少。
如果 $Aπθ(s,a)>0A^{\pi_\theta}(s, a) > 0$ ，说明动作 $a$ 比平均水平好，应该增加其被选择的概率 $πθ(a∣s)\pi_\theta(a|s)$ 。
如果 $Aπθ(s,a)<0A^{\pi_\theta}(s, a) < 0$ ，说明动作 $a$ 比平均水平差，应该减少其被选择的概率 $πθ(a∣s)\pi_\theta(a|s)$ 。

最终的策略梯度表达式（Action-Critic 结构的基础）：
$∇θJ(θ)≈Eπθ[∑t=0TAπθ(st,at)∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) \approx E_{\pi_\theta} \left[ \sum_{t=0}^{T} A^{\pi_\theta}(s_t, a_t) \nabla_\theta \log \pi_\theta(a_t|s_t) \right]$

三. 广义优势估计 (GAE) 的引入

在实际应用中，优势函数 $Aπ(s,a)=Qπ(s,a)−Vπ(s)A^{\pi}(s, a) = Q^{\pi}(s, a) - V^{\pi}(s)$ 存在一个实现上的问题：需要准确估计两个价值函数 $QπQ^{\pi}$ 和 $VπV^{\pi}$ ，这本身就是挑战。因此，我们通常用其他形式来估计 $Aπ(s,a)A^{\pi}(s, a)$ ，其中最常见的是使用时序差分 (TD) 误差和GAE。

3.1 TD 误差作为优势估计

基于贝尔曼方程 $Qπ(st,at)=Eπ[rt+γVπ(st+1)∣st,at]Q^{\pi}(s_t, a_t) = E_{\pi} [r_t + \gamma V^{\pi}(s_{t+1}) | s_t, a_t]$ ，我们可以将 $Aπ(st,at)A^{\pi}(s_t, a_t)$ 表达为：
$Aπ(st,at)=rt+γVπ(st+1)−Vπ(st)A^{\pi}(s_t, a_t) = r_t + \gamma V^{\pi}(s_{t+1}) - V^{\pi}(s_t)$

TD 误差 (TD Error): $δt=rt+γVπ(st+1)−Vπ(st)\delta_t = r_t + \gamma V^{\pi}(s_{t+1}) - V^{\pi}(s_t)$ 。
$δt\delta_t$ 是对 $Aπ(st,at)A^{\pi}(s_t, a_t)$ 的一个单步有偏估计，我们称之为 $A_t^{(1)}$ 。
TD( $λ\lambda$ ) 回报 (TD( $λ\lambda$ ) Return): $RtλR_t^{\lambda}$ 是一种融合了不同 $n$ -步回报的估计。

3.2 广义优势估计 (GAE) 的动机

使用 $A_t^{(1)}$ （即 $δt\delta_t$ ）作为优势估计是低方差的（因为只依赖于一步的观测），但它是有偏的，因为它依赖于对 $VπV^{\pi}$ 的估计 $V^\hat{V}$ 。而使用 $Gt−Vπ(st)G_t - V^{\pi}(s_t)$ （蒙特卡洛估计，MC）是无偏的，但却是高方差的。

GAE 的目标： 结合 $n$ -步回报的优势，在偏差和方差之间取得平衡。

$n$ -步优势估计：
$At(1)=rt+γV(st+1)−V(st)=δtAt(2)=rt+γrt+1+γ2V(st+2)−V(st)=δt+γδt+1At(n)=∑l=0n−1γlrt+l+γnV(st+n)−V(st)=∑l=0n−1γlδt+l\begin{aligned} A_t^{(1)} &= r_t + \gamma V(s_{t+1}) - V(s_t) = \delta_t \\ A_t^{(2)} &= r_t + \gamma r_{t+1} + \gamma^2 V(s_{t+2}) - V(s_t) = \delta_t + \gamma \delta_{t+1} \\ A_t^{(n)} &= \sum_{l=0}^{n-1} \gamma^l r_{t+l} + \gamma^n V(s_{t+n}) - V(s_t) = \sum_{l=0}^{n-1} \gamma^l \delta_{t+l} \end{aligned}$
其中 $δt+l\delta_{t+l}$ 是 $t + l$ 时刻的单步 TD 误差。

GAE 的定义： GAE 是一种指数加权平均了所有 $n$ -步优势估计的方法，类似于 TD( $λ\lambda$ ) 回报，它引入了一个衰减因子 $λ∈[0,1]\lambda \in [0, 1]$ 。

$A^tGAE(γ,λ)=(1−λ)∑n=1∞λn−1At(n)\hat{A}_t^{GAE(\gamma, \lambda)} = (1-\lambda) \sum_{n=1}^{\infty} \lambda^{n-1} A_t^{(n)}$

将 $At(n)=∑l=0n−1γlδt+lA_t^{(n)} = \sum_{l=0}^{n-1} \gamma^l \delta_{t+l}$ 代入：

$A^tGAE(γ,λ)=(1−λ)∑n=1∞λn−1∑l=0n−1(γ)lδt+l\hat{A}_t^{GAE(\gamma, \lambda)} = (1-\lambda) \sum_{n=1}^{\infty} \lambda^{n-1} \sum_{l=0}^{n-1} (\gamma)^l \delta_{t+l}$

通过改变求和顺序（类似于 $TD(λ)\text{TD}(\lambda)$ 的推导），可以得到一个更紧凑的形式：
$A^tGAE(γ,λ)=∑l=0∞(γλ)lδt+l\hat{A}_t^{GAE(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}$

其中：

$γ\gamma$ 是标准折扣因子。
$λ\lambda$ 是 GAE 的平滑参数，控制着不同步长估计的权重。

GAE 的作用：

$λ=0\lambda = 0$ 时： $A^tGAE(γ,0)=δt=rt+γV(st+1)−V(st)\hat{A}_t^{GAE(\gamma, 0)} = \delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ ，退化为单步 TD 优势估计（低方差，高偏差）。
$λ=1\lambda = 1$ 时： $A^tGAE(γ,1)=∑l=0∞γlδt+l=Gt−V(st)\hat{A}_t^{GAE(\gamma, 1)} = \sum_{l=0}^{\infty} \gamma^l \delta_{t+l} = G_t - V(s_t)$ ，退化为蒙特卡洛优势估计（高方差，低偏差/无偏，前提是 $V$ 估计准确）。
$\lambda < 1$ 时： GAE 在 TD 估计和 MC 估计之间进行平滑过渡，实现了方差和偏差的权衡。

估计方法	$λ\lambda$ 值	偏差-方差特点	核心依赖
单步 TD	$λ→0\lambda \to 0$	高偏差（依赖 $VϕV_\phi$ 准确性），低方差	Critic $VϕV_\phi$ 的单步预测
蒙特卡洛	$λ→1\lambda \to 1$	低偏差（接近真实 $G_t$ ），高方差	完整随机轨迹的奖励
GAE	$λ≈0.95\lambda \approx 0.95$	平衡偏差和方差	多步 $TD\text{TD}$ 估计的指数加权平均

GAE 的引入是现代策略梯度方法（如 TRPO 和 PPO）能够稳定、高效学习的关键技术之一。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla