文章优先发布在微信公众号——“LLM大模型”,有些文章未来得及同步,可以直接关注公众号查看


一. 策略梯度算法

策略梯度算法是强化学习中一类直接优化参数化策略 πθ(a∣s)\pi_\theta(a|s)πθ(as) 的方法,通过计算目标函数(通常是累计奖励的期望)关于策略参数 θ\thetaθ 的梯度,并沿着梯度方向更新 θ\thetaθ

1.1 目标函数

在经典的马尔可夫决策过程(MDP)中,我们的目标是找到一个参数 θ\thetaθ 使得期望累计奖励最大化。

对于回合制任务(Episodic Tasks),目标函数可以定义为:
J(θ)=Eτ∼πθ[R(τ)]=Eτ∼πθ[∑t=0Tγtrt]=Es0∼ρ0[Vπθ(s0)]J(\theta) = E_{\tau \sim \pi_\theta} [R(\tau)] = E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \gamma^t r_t \right] = E_{s_0 \sim \rho_0} [V^{\pi_\theta}(s_0)]J(θ)=Eτπθ[R(τ)]=Eτπθ[t=0Tγtrt]=Es0ρ0[Vπθ(s0)]
其中:

  • τ=(s0,a0,r0,s1,a1,r1,…,sT)\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \dots, s_T)τ=(s0,a0,r0,s1,a1,r1,,sT) 是一条轨迹(trajectory)。
  • πθ\pi_\thetaπθ 是由 θ\thetaθ 参数化的策略。
  • R(τ)R(\tau)R(τ) 是轨迹的总折扣奖励。
  • ρ0(s0)\rho_0(s_0)ρ0(s0) 是初始状态分布。
  • Vπθ(s0)V^{\pi_\theta}(s_0)Vπθ(s0) 是策略 πθ\pi_\thetaπθ 下的起始状态 s0s_0s0 的价值函数。

对于连续型任务(Continuing Tasks),目标函数通常定义为平均奖励:
J(θ)=∑sμπθ(s)∑aπθ(a∣s)R(s,a)J(\theta) = \sum_s \mu^{\pi_\theta}(s) \sum_a \pi_\theta(a|s) R(s, a)J(θ)=sμπθ(s)aπθ(as)R(s,a)
其中 μπθ(s)\mu^{\pi_\theta}(s)μπθ(s) 是策略 πθ\pi_\thetaπθ 下的稳态(或平均)状态分布。

我们主要关注回合制任务的目标函数 J(θ)J(\theta)J(θ) 的梯度计算。

1.2 策略梯度定理

策略梯度定理是策略梯度算法的基石,它提供了一种计算 J(θ)J(\theta)J(θ) 关于 θ\thetaθ 的梯度 ∇θJ(θ)\nabla_\theta J(\theta)θJ(θ) 的通用表达式。

推导过程:

  1. 轨迹概率: 一条轨迹 τ\tauτ 在策略 πθ\pi_\thetaπθ 下发生的概率为:
    P(τ;θ)=ρ0(s0)∏t=0TP(st+1∣st,at)πθ(at∣st)P(\tau; \theta) = \rho_0(s_0) \prod_{t=0}^{T} P(s_{t+1}|s_t, a_t) \pi_\theta(a_t|s_t)P(τ;θ)=ρ0(s0)t=0TP(st+1st,at)πθ(atst)

  2. 目标函数梯度:
    ∇θJ(θ)=∇θEτ∼πθ[R(τ)]=∇θ∑τP(τ;θ)R(τ)\nabla_\theta J(\theta) = \nabla_\theta E_{\tau \sim \pi_\theta} [R(\tau)] = \nabla_\theta \sum_\tau P(\tau; \theta) R(\tau)θJ(θ)=θEτπθ[R(τ)]=θτP(τ;θ)R(τ)
    ∇θJ(θ)=∑τ[∇θP(τ;θ)]R(τ)\nabla_\theta J(\theta) = \sum_\tau \left[ \nabla_\theta P(\tau; \theta) \right] R(\tau)θJ(θ)=τ[θP(τ;θ)]R(τ)

  3. 对数导数技巧 (Log-derivative Trick): 利用 ∇θP(τ;θ)=P(τ;θ)∇θP(τ;θ)P(τ;θ)=P(τ;θ)∇θlog⁡P(τ;θ)\nabla_\theta P(\tau; \theta) = P(\tau; \theta) \frac{\nabla_\theta P(\tau; \theta)}{P(\tau; \theta)} = P(\tau; \theta) \nabla_\theta \log P(\tau; \theta)θP(τ;θ)=P(τ;θ)P(τ;θ)θP(τ;θ)=P(τ;θ)θlogP(τ;θ),我们有:
    ∇θJ(θ)=∑τP(τ;θ)[∇θlog⁡P(τ;θ)]R(τ)\nabla_\theta J(\theta) = \sum_\tau P(\tau; \theta) \left[ \nabla_\theta \log P(\tau; \theta) \right] R(\tau)θJ(θ)=τP(τ;θ)[θlogP(τ;θ)]R(τ)
    ∇θJ(θ)=Eτ∼πθ[R(τ)∇θlog⁡P(τ;θ)]\nabla_\theta J(\theta) = E_{\tau \sim \pi_\theta} \left[ R(\tau) \nabla_\theta \log P(\tau; \theta) \right]θJ(θ)=Eτπθ[R(τ)θlogP(τ;θ)]

  4. 展开 ∇θlog⁡P(τ;θ)\nabla_\theta \log P(\tau; \theta)θlogP(τ;θ)
    log⁡P(τ;θ)=log⁡(ρ0(s0)∏t=0TP(st+1∣st,at)πθ(at∣st))\log P(\tau; \theta) = \log \left( \rho_0(s_0) \prod_{t=0}^{T} P(s_{t+1}|s_t, a_t) \pi_\theta(a_t|s_t) \right)logP(τ;θ)=log(ρ0(s0)t=0TP(st+1st,at)πθ(atst))
    log⁡P(τ;θ)=log⁡ρ0(s0)+∑t=0Tlog⁡P(st+1∣st,at)+∑t=0Tlog⁡πθ(at∣st)\log P(\tau; \theta) = \log \rho_0(s_0) + \sum_{t=0}^{T} \log P(s_{t+1}|s_t, a_t) + \sum_{t=0}^{T} \log \pi_\theta(a_t|s_t)logP(τ;θ)=logρ0(s0)+t=0TlogP(st+1st,at)+t=0Tlogπθ(atst)
    因为 ρ0(s0)\rho_0(s_0)ρ0(s0)P(st+1∣st,at)P(s_{t+1}|s_t, a_t)P(st+1st,at) 不依赖于 θ\thetaθ,所以它们的梯度为 0。
    ∇θlog⁡P(τ;θ)=∑t=0T∇θlog⁡πθ(at∣st)\nabla_\theta \log P(\tau; \theta) = \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t)θlogP(τ;θ)=t=0Tθlogπθ(atst)

  5. 最终形式 (REINFORCE): 代入上式,得到最基础的策略梯度形式(REINFORCE 算法的基础):
    ∇θJ(θ)=Eτ∼πθ[∑t=0TR(τ)∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) = E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} R(\tau) \nabla_\theta \log \pi_\theta(a_t|s_t) \right]θJ(θ)=Eτπθ[t=0TR(τ)θlogπθ(atst)]

  6. 更通用的策略梯度定理: 可以证明(通过引入状态访问分布和价值函数),梯度可以简化为:
    ∇θJ(θ)=∑sμπθ(s)∑a∇θπθ(a∣s)Qπθ(s,a)\nabla_\theta J(\theta) = \sum_s \mu^{\pi_\theta}(s) \sum_a \nabla_\theta \pi_\theta(a|s) Q^{\pi_\theta}(s, a)θJ(θ)=sμπθ(s)aθπθ(as)Qπθ(s,a)
    更常用的、基于样本的形式,是将 R(τ)R(\tau)R(τ) 替换为随后的奖励(即从 ttt 时刻开始的未来累计折扣奖励)
    ∇θJ(θ)≈Eπθ[∑t=0TGt∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) \approx E_{\pi_\theta} \left[ \sum_{t=0}^{T} G_t \nabla_\theta \log \pi_\theta(a_t|s_t) \right]θJ(θ)Eπθ[t=0TGtθlogπθ(atst)]
    其中 Gt=∑k=tTγk−trkG_t = \sum_{k=t}^T \gamma^{k-t} r_kGt=k=tTγktrk回报 (Return)

1.3 策略梯度算法的基本形式 (REINFORCE)

REINFORCE(Monte Carlo Policy Gradient)利用策略梯度定理的蒙特卡洛估计:

∇θJ(θ)≈1M∑i=1M∑t=0TGt(i)∇θlog⁡πθ(at(i)∣st(i))\nabla_\theta J(\theta) \approx \frac{1}{M} \sum_{i=1}^{M} \sum_{t=0}^{T} G_t^{(i)} \nabla_\theta \log \pi_\theta(a_t^{(i)}|s_t^{(i)})θJ(θ)M1i=1Mt=0TGt(i)θlogπθ(at(i)st(i))

参数更新:
θ←θ+α∇θJ(θ)\theta \leftarrow \theta + \alpha \nabla_\theta J(\theta)θθ+αθJ(θ)
其中 α\alphaα 是学习率。


二. 优势函数的由来

REINFORCE是基于策略梯度定理的最基础算法,使用蒙特卡洛采样来估计梯度。

主要缺点:
策略梯度估计的方差(Variance)极高。这是因为回报 GtG_tGt 是一个随机变量,其计算依赖于一整条随机轨迹 τ\tauτ,梯度估计 Gt∇θlog⁡πθ(at∣st)G_t \nabla_\theta \log \pi_\theta(a_t|s_t)Gtθlogπθ(atst) 的方差很大,导致训练过程不稳定且收敛缓慢。

优势函数(Advantage Function) 的引入正是为了解决这个问题,它充当基线 (Baseline) 的作用来减小方差而不改变梯度的期望。

2.1 基线 (Baseline) 的引入

考虑策略梯度的形式:
∇θJ(θ)=Eπθ[∑t=0TGt∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) = E_{\pi_\theta} \left[ \sum_{t=0}^{T} G_t \nabla_\theta \log \pi_\theta(a_t|s_t) \right]θJ(θ)=Eπθ[t=0TGtθlogπθ(atst)]
我们可以引入一个不依赖于 ata_tat 的函数 b(st)b(s_t)b(st)(即基线)来修改梯度估计:
∇θJ(θ)=Eπθ[∑t=0T(Gt−b(st))∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) = E_{\pi_\theta} \left[ \sum_{t=0}^{T} (G_t - b(s_t)) \nabla_\theta \log \pi_\theta(a_t|s_t) \right]θJ(θ)=Eπθ[t=0T(Gtb(st))θlogπθ(atst)]

证明引入基线不改变期望梯度:

我们需要证明 Eπθ[∑t=0Tb(st)∇θlog⁡πθ(at∣st)]=0E_{\pi_\theta} \left[ \sum_{t=0}^{T} b(s_t) \nabla_\theta \log \pi_\theta(a_t|s_t) \right] = 0Eπθ[t=0Tb(st)θlogπθ(atst)]=0

考察单个时间步 ttt 的期望:
Eπθ[b(st)∇θlog⁡πθ(at∣st)]=∑stμπθ(st)b(st)∑atπθ(at∣st)∇θlog⁡πθ(at∣st)E_{\pi_\theta} \left[ b(s_t) \nabla_\theta \log \pi_\theta(a_t|s_t) \right] = \sum_{s_t} \mu^{\pi_\theta}(s_t) b(s_t) \sum_{a_t} \pi_\theta(a_t|s_t) \nabla_\theta \log \pi_\theta(a_t|s_t)Eπθ[b(st)θlogπθ(atst)]=stμπθ(st)b(st)atπθ(atst)θlogπθ(atst)

利用对数导数技巧的逆操作
πθ(at∣st)∇θlog⁡πθ(at∣st)=∇θπθ(at∣st)\pi_\theta(a_t|s_t) \nabla_\theta \log \pi_\theta(a_t|s_t) = \nabla_\theta \pi_\theta(a_t|s_t)πθ(atst)θlogπθ(atst)=θπθ(atst)

代入上式:
E[… ]=∑stμπθ(st)b(st)∑at∇θπθ(at∣st)E[\dots] = \sum_{s_t} \mu^{\pi_\theta}(s_t) b(s_t) \sum_{a_t} \nabla_\theta \pi_\theta(a_t|s_t)E[]=stμπθ(st)b(st)atθπθ(atst)

由于 ∑atπθ(at∣st)=1\sum_{a_t} \pi_\theta(a_t|s_t) = 1atπθ(atst)=1(概率和为 1),所以:
∑at∇θπθ(at∣st)=∇θ∑atπθ(at∣st)=∇θ(1)=0\sum_{a_t} \nabla_\theta \pi_\theta(a_t|s_t) = \nabla_\theta \sum_{a_t} \pi_\theta(a_t|s_t) = \nabla_\theta (1) = 0atθπθ(atst)=θatπθ(atst)=θ(1)=0

因此,
Eπθ[b(st)∇θlog⁡πθ(at∣st)]=∑stμπθ(st)b(st)⋅0=0E_{\pi_\theta} \left[ b(s_t) \nabla_\theta \log \pi_\theta(a_t|s_t) \right] = \sum_{s_t} \mu^{\pi_\theta}(s_t) b(s_t) \cdot 0 = 0Eπθ[b(st)θlogπθ(atst)]=stμπθ(st)b(st)0=0
梯度估计的期望保持不变。

2.2 最佳基线:状态价值函数

为了最大限度地减小方差,我们希望选择一个基线 b(st)b(s_t)b(st) 使得 Var((Gt−b(st))∇θlog⁡πθ(at∣st))V a r \left( (G_t - b(s_t)) \nabla_\theta \log \pi_\theta(a_t|s_t) \right)Var((Gtb(st))θlogπθ(atst)) 最小。

一个理想的基线状态价值函数 Vπθ(st)V^{\pi_\theta}(s_t)Vπθ(st)

  • 状态价值函数 (State-Value Function): Vπθ(s)=Eπθ[Gt∣st=s]V^{\pi_\theta}(s) = E_{\pi_\theta} [G_t | s_t = s]Vπθ(s)=Eπθ[Gtst=s],表示在状态 sss 下,按照策略 πθ\pi_\thetaπθ 行动所能获得的期望回报。
  • GtG_tGt 替换为动作价值函数 (Action-Value Function) Qπθ(st,at)=Eπθ[Gt∣st,at]Q^{\pi_\theta}(s_t, a_t) = E_{\pi_\theta} [G_t | s_t, a_t]Qπθ(st,at)=Eπθ[Gtst,at],策略梯度可以写为:
    ∇θJ(θ)≈Eπθ[∑t=0TQπθ(st,at)∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) \approx E_{\pi_\theta} \left[ \sum_{t=0}^{T} Q^{\pi_\theta}(s_t, a_t) \nabla_\theta \log \pi_\theta(a_t|s_t) \right]θJ(θ)Eπθ[t=0TQπθ(st,at)θlogπθ(atst)]
  • 选择基线 b(st)=Vπθ(st)b(s_t) = V^{\pi_\theta}(s_t)b(st)=Vπθ(st),梯度表达式变为:
    ∇θJ(θ)≈Eπθ[∑t=0T(Qπθ(st,at)−Vπθ(st))∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) \approx E_{\pi_\theta} \left[ \sum_{t=0}^{T} (Q^{\pi_\theta}(s_t, a_t) - V^{\pi_\theta}(s_t)) \nabla_\theta \log \pi_\theta(a_t|s_t) \right]θJ(θ)Eπθ[t=0T(Qπθ(st,at)Vπθ(st))θlogπθ(atst)]

2.3 优势函数 (Advantage Function)

我们将 Qπθ(st,at)−Vπθ(st)Q^{\pi_\theta}(s_t, a_t) - V^{\pi_\theta}(s_t)Qπθ(st,at)Vπθ(st) 定义为优势函数 Aπθ(st,at)A^{\pi_\theta}(s_t, a_t)Aπθ(st,at):

Aπθ(s,a)=Qπθ(s,a)−Vπθ(s)A^{\pi_\theta}(s, a) = Q^{\pi_\theta}(s, a) - V^{\pi_\theta}(s)Aπθ(s,a)=Qπθ(s,a)Vπθ(s)

  • Aπθ(s,a)A^{\pi_\theta}(s, a)Aπθ(s,a) 衡量的是在状态 sss 下,采取特定动作 aaa 相比于遵循策略 πθ\pi_\thetaπθ平均表现(期望价值 Vπθ(s)V^{\pi_\theta}(s)Vπθ(s)好出多少
  • 如果 Aπθ(s,a)>0A^{\pi_\theta}(s, a) > 0Aπθ(s,a)>0,说明动作 aaa 比平均水平好,应该增加其被选择的概率 πθ(a∣s)\pi_\theta(a|s)πθ(as)
  • 如果 Aπθ(s,a)<0A^{\pi_\theta}(s, a) < 0Aπθ(s,a)<0,说明动作 aaa 比平均水平差,应该减少其被选择的概率 πθ(a∣s)\pi_\theta(a|s)πθ(as)

最终的策略梯度表达式(Action-Critic 结构的基础):
∇θJ(θ)≈Eπθ[∑t=0TAπθ(st,at)∇θlog⁡πθ(at∣st)]\nabla_\theta J(\theta) \approx E_{\pi_\theta} \left[ \sum_{t=0}^{T} A^{\pi_\theta}(s_t, a_t) \nabla_\theta \log \pi_\theta(a_t|s_t) \right]θJ(θ)Eπθ[t=0TAπθ(st,at)θlogπθ(atst)]


三. 广义优势估计 (GAE) 的引入

在实际应用中,优势函数 Aπ(s,a)=Qπ(s,a)−Vπ(s)A^{\pi}(s, a) = Q^{\pi}(s, a) - V^{\pi}(s)Aπ(s,a)=Qπ(s,a)Vπ(s) 存在一个实现上的问题:需要准确估计两个价值函数 QπQ^{\pi}QπVπV^{\pi}Vπ,这本身就是挑战。因此,我们通常用其他形式来估计 Aπ(s,a)A^{\pi}(s, a)Aπ(s,a),其中最常见的是使用时序差分 (TD) 误差GAE

3.1 TD 误差作为优势估计

基于贝尔曼方程 Qπ(st,at)=Eπ[rt+γVπ(st+1)∣st,at]Q^{\pi}(s_t, a_t) = E_{\pi} [r_t + \gamma V^{\pi}(s_{t+1}) | s_t, a_t]Qπ(st,at)=Eπ[rt+γVπ(st+1)st,at],我们可以将 Aπ(st,at)A^{\pi}(s_t, a_t)Aπ(st,at) 表达为:
Aπ(st,at)=rt+γVπ(st+1)−Vπ(st)A^{\pi}(s_t, a_t) = r_t + \gamma V^{\pi}(s_{t+1}) - V^{\pi}(s_t)Aπ(st,at)=rt+γVπ(st+1)Vπ(st)

  • TD 误差 (TD Error): δt=rt+γVπ(st+1)−Vπ(st)\delta_t = r_t + \gamma V^{\pi}(s_{t+1}) - V^{\pi}(s_t)δt=rt+γVπ(st+1)Vπ(st)
  • δt\delta_tδt 是对 Aπ(st,at)A^{\pi}(s_t, a_t)Aπ(st,at) 的一个单步有偏估计,我们称之为 At(1)A_t^{(1)}At(1)
  • TD(λ\lambdaλ) 回报 (TD(λ\lambdaλ) Return): RtλR_t^{\lambda}Rtλ 是一种融合了不同 nnn-步回报的估计。

3.2 广义优势估计 (GAE) 的动机

使用 At(1)A_t^{(1)}At(1)(即 δt\delta_tδt)作为优势估计是低方差的(因为只依赖于一步的观测),但它是有偏的,因为它依赖于对 VπV^{\pi}Vπ 的估计 V^\hat{V}V^。而使用 Gt−Vπ(st)G_t - V^{\pi}(s_t)GtVπ(st)(蒙特卡洛估计,MC)是无偏的,但却是高方差的

GAE 的目标: 结合 nnn-步回报的优势,在偏差和方差之间取得平衡

nnn-步优势估计:
At(1)=rt+γV(st+1)−V(st)=δtAt(2)=rt+γrt+1+γ2V(st+2)−V(st)=δt+γδt+1At(n)=∑l=0n−1γlrt+l+γnV(st+n)−V(st)=∑l=0n−1γlδt+l\begin{aligned} A_t^{(1)} &= r_t + \gamma V(s_{t+1}) - V(s_t) = \delta_t \\ A_t^{(2)} &= r_t + \gamma r_{t+1} + \gamma^2 V(s_{t+2}) - V(s_t) = \delta_t + \gamma \delta_{t+1} \\ A_t^{(n)} &= \sum_{l=0}^{n-1} \gamma^l r_{t+l} + \gamma^n V(s_{t+n}) - V(s_t) = \sum_{l=0}^{n-1} \gamma^l \delta_{t+l} \end{aligned}At(1)At(2)At(n)=rt+γV(st+1)V(st)=δt=rt+γrt+1+γ2V(st+2)V(st)=δt+γδt+1=l=0n1γlrt+l+γnV(st+n)V(st)=l=0n1γlδt+l
其中 δt+l\delta_{t+l}δt+lt+lt+lt+l 时刻的单步 TD 误差。

GAE 的定义: GAE 是一种指数加权平均了所有 nnn-步优势估计的方法,类似于 TD(λ\lambdaλ) 回报,它引入了一个衰减因子 λ∈[0,1]\lambda \in [0, 1]λ[0,1]

A^tGAE(γ,λ)=(1−λ)∑n=1∞λn−1At(n)\hat{A}_t^{GAE(\gamma, \lambda)} = (1-\lambda) \sum_{n=1}^{\infty} \lambda^{n-1} A_t^{(n)}A^tGAE(γ,λ)=(1λ)n=1λn1At(n)

At(n)=∑l=0n−1γlδt+lA_t^{(n)} = \sum_{l=0}^{n-1} \gamma^l \delta_{t+l}At(n)=l=0n1γlδt+l 代入:

A^tGAE(γ,λ)=(1−λ)∑n=1∞λn−1∑l=0n−1(γ)lδt+l\hat{A}_t^{GAE(\gamma, \lambda)} = (1-\lambda) \sum_{n=1}^{\infty} \lambda^{n-1} \sum_{l=0}^{n-1} (\gamma)^l \delta_{t+l}A^tGAE(γ,λ)=(1λ)n=1λn1l=0n1(γ)lδt+l

通过改变求和顺序(类似于 TD(λ)\text{TD}(\lambda)TD(λ) 的推导),可以得到一个更紧凑的形式:
A^tGAE(γ,λ)=∑l=0∞(γλ)lδt+l\hat{A}_t^{GAE(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}A^tGAE(γ,λ)=l=0(γλ)lδt+l

其中:

  • γ\gammaγ 是标准折扣因子。
  • λ\lambdaλ 是 GAE 的平滑参数,控制着不同步长估计的权重。

GAE 的作用:

  • λ=0\lambda = 0λ=0 时: A^tGAE(γ,0)=δt=rt+γV(st+1)−V(st)\hat{A}_t^{GAE(\gamma, 0)} = \delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)A^tGAE(γ,0)=δt=rt+γV(st+1)V(st),退化为单步 TD 优势估计(低方差,高偏差)。
  • λ=1\lambda = 1λ=1 时: A^tGAE(γ,1)=∑l=0∞γlδt+l=Gt−V(st)\hat{A}_t^{GAE(\gamma, 1)} = \sum_{l=0}^{\infty} \gamma^l \delta_{t+l} = G_t - V(s_t)A^tGAE(γ,1)=l=0γlδt+l=GtV(st),退化为蒙特卡洛优势估计(高方差,低偏差/无偏,前提是 VVV 估计准确)。
  • 0<λ<10 < \lambda < 10<λ<1 时: GAE 在 TD 估计和 MC 估计之间进行平滑过渡,实现了方差和偏差的权衡。
估计方法 λ\lambdaλ 偏差-方差特点 核心依赖
单步 TD λ→0\lambda \to 0λ0 高偏差(依赖 VϕV_\phiVϕ 准确性),低方差 Critic VϕV_\phiVϕ 的单步预测
蒙特卡洛 λ→1\lambda \to 1λ1 低偏差(接近真实 GtG_tGt),高方差 完整随机轨迹的奖励
GAE λ≈0.95\lambda \approx 0.95λ0.95 平衡偏差和方差 多步 TD\text{TD}TD 估计的指数加权平均

GAE 的引入是现代策略梯度方法(如 TRPO 和 PPO)能够稳定、高效学习的关键技术之一。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐