强化学习中的 状态价值函数(State Value Function),用于衡量在某个状态 sss 下,遵循策略 πππ 时,模型能够获得的 期望累积奖励。我们来逐步拆解这个公式的含义,并详细解释每个符号的作用。


1. 公式分解

Vπ(s)=Eπ[∑t=0∞γtRt]V^π(s)=E_π[∑_{t=0}^∞γ^tR_t]Vπ(s)=Eπ[t=0γtRt]

1.1 Vπ(s)V^π(s)Vπ(s)
  • 含义:在状态 sss下,遵循策略 πππ 时的 期望累积奖励(Expected Cumulative Reward)。
  • 作用:衡量一个策略πππ在某个状态 sss 下的“长期价值”。
    • 例如,在游戏中,Vπ(s)V_π(s)Vπ(s) 表示从当前状态 sss 开始,按照策略 πππ 操作,未来能获得的平均总奖励。

2. 公式中的关键符号

2.1 EπE_πEπ
  • 含义期望值(Expectation),下标 πππ 表示期望是基于策略 πππ 生成的。
  • 解释
    • 强化学习中,环境(Environment)和智能体(Agent)的交互存在不确定性(随机性)。
      • 例如,智能体选择动作后,环境可能以一定概率转移到不同状态,奖励也可能随机变化。
    • 为了衡量一个策略 πππ 的长期效果,不能只看一次交互的结果,而是需要 统计平均值(即期望值)。
    • EπE_πEπ 表示在策略 πππ 的指导下,所有可能的交互路径的平均累积奖励。
  • 类比
    如果你玩掷骰子游戏,每次掷出 1~6 的概率均等。期望值 E[x]=1+2+3+4+5+66=3.5E[x]=\frac{1+2+3+4+5+6}{6}=3.5E[x]=61+2+3+4+5+6=3.5,这就是长期平均结果。
    类似地,EπE_πEπ 是策略 πππ 长期执行的平均结果。
2.2 ∑t=0∞γtRt∑_{t=0}^∞γ^tR_tt=0γtRt
  • 含义折扣累积奖励(Discounted Cumulative Reward),表示从当前状态开始,未来所有时刻的奖励的加权总和。

    • RtR_tRt:第 ttt 步的即时奖励(Immediate Reward)。
    • γ∈[0,1]γ∈[0,1]γ[0,1]折扣因子(Discount Factor),表示未来奖励的重要性。
      • γ=0γ=0γ=0:只关注当前奖励,完全不考虑未来。
      • γ→1γ→1γ1:未来奖励的重要性逐渐增加,甚至可能无限延续(如永续任务)。
  • 举例
    假设 γ=0.9γ=0.9γ=0.9,奖励序列 R0=10,R1=5,R2=2R_0=10,R_1=5,R_2=2R0=10,R1=5,R2=2,则累积奖励为:

    10+0.9×5+0.92×2=10+4.5+1.62=16.1210+0.9×5+0.9^2×2=10+4.5+1.62=16.1210+0.9×5+0.92×2=10+4.5+1.62=16.12

2.3 γtγ^tγt
  • 作用

    :对未来的奖励进行衰减,避免无限累加导致发散。

    • γ<1γ<1γ<1 确保无限求和 ∑t=0∞γtRt∑_{t=0}^∞γ^tR_tt=0γtRt 收敛。
    • 例如,γ=0.9γ=0.9γ=0.9 时,未来奖励的权重会快速衰减(0.9,0.81,0.729,…0.9,0.81,0.729,…0.9,0.81,0.729,)。

3. 公式的意义

  • 核心思想
    • 强化学习的目标是让智能体(如 ChatGPT 的 RLHF 策略)最大化 长期累积奖励
    • 通过 Vπ(s)V^π (s)Vπ(s),可以量化策略 ππ 在某个状态下的“好坏”。
    • 例如,在对话生成中,RtRt 可能是用户对回答的满意度评分,Vπ(s)V^π (s)Vπ(s) 表示该策略下对话的长期质量。
  • 应用场景
    • 策略评估(Policy Evaluation):计算某个策略 πππ 的价值函数 Vπ(s)V^π (s)Vπ(s)
    • 策略优化(Policy Optimization):通过调整策略 πππ,最大化 Vπ(s)V^π (s)Vπ(s)
    • ChatGPT 的 RLHF:通过人类反馈训练的奖励模型(RM)生成 RtRtRt,再通过强化学习(PPO)优化策略 πππ

4. 关键概念总结

符号 含义 作用
Vπ(s)V^π (s)Vπ(s) 状态价值函数 衡量策略 πππ 在状态 sss 下的长期价值
$ E_π $ 期望值 统计策略 πππ 下所有可能路径的平均结果
RtR_tRt 即时奖励 ttt 步的奖励(如用户评分)
γγγ 折扣因子 控制未来奖励的重要性(0≤γ≤10≤γ≤10γ1

5. 实际应用示例

假设 ChatGPT 生成回答时,用户对每个回答的满意度评分 RtRtRt 如下:

  • R0=3R0=3R0=3(当前回答的评分)
  • R1=2R1=2R1=2(后续对话的评分)
  • R2=1R2=1R2=1(更远的对话评分)
  • γ=0.9γ=0.9γ=0.9

则累积奖励为:

Vπ(s)=3+0.9×2+0.92×1=3+1.8+0.81=5.61V^π(s)=3+0.9×2+0.9^2×1=3+1.8+0.81=5.61Vπ(s)=3+0.9×2+0.92×1=3+1.8+0.81=5.61

这表示当前策略 ππ 下,对话的长期价值为 5.61 分。


6. 总结

  • 期望值 EπE_πEπ 是强化学习的核心概念,用于衡量策略 ππ 在不确定环境中的长期表现。
  • 折扣因子 γγγ 平衡了当前与未来奖励的重要性。
  • 这个公式在 ChatGPT 的 RLHF 中至关重要:通过最大化 Vπ(s)V^π(s)Vπ(s),模型会生成更符合人类偏好的回答。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐