强化学习的状态价值函数(State Value Function)
强化学习中的(State Value Function),用于衡量在某个状态s下,遵循策略π时,模型能够获得的。我们来逐步拆解这个公式的含义,并详细解释每个符号的作用。
强化学习中的 状态价值函数(State Value Function),用于衡量在某个状态 sss 下,遵循策略 πππ 时,模型能够获得的 期望累积奖励。我们来逐步拆解这个公式的含义,并详细解释每个符号的作用。
1. 公式分解
Vπ(s)=Eπ[∑t=0∞γtRt]V^π(s)=E_π[∑_{t=0}^∞γ^tR_t]Vπ(s)=Eπ[∑t=0∞γtRt]
1.1 Vπ(s)V^π(s)Vπ(s)
- 含义:在状态 sss下,遵循策略 πππ 时的 期望累积奖励(Expected Cumulative Reward)。
- 作用:衡量一个策略πππ在某个状态 sss 下的“长期价值”。
- 例如,在游戏中,Vπ(s)V_π(s)Vπ(s) 表示从当前状态 sss 开始,按照策略 πππ 操作,未来能获得的平均总奖励。
2. 公式中的关键符号
2.1 EπE_πEπ
- 含义:期望值(Expectation),下标 πππ 表示期望是基于策略 πππ 生成的。
- 解释:
- 强化学习中,环境(Environment)和智能体(Agent)的交互存在不确定性(随机性)。
- 例如,智能体选择动作后,环境可能以一定概率转移到不同状态,奖励也可能随机变化。
- 为了衡量一个策略 πππ 的长期效果,不能只看一次交互的结果,而是需要 统计平均值(即期望值)。
- EπE_πEπ 表示在策略 πππ 的指导下,所有可能的交互路径的平均累积奖励。
- 强化学习中,环境(Environment)和智能体(Agent)的交互存在不确定性(随机性)。
- 类比:
如果你玩掷骰子游戏,每次掷出 1~6 的概率均等。期望值 E[x]=1+2+3+4+5+66=3.5E[x]=\frac{1+2+3+4+5+6}{6}=3.5E[x]=61+2+3+4+5+6=3.5,这就是长期平均结果。
类似地,EπE_πEπ 是策略 πππ 长期执行的平均结果。
2.2 ∑t=0∞γtRt∑_{t=0}^∞γ^tR_t∑t=0∞γtRt
-
含义:折扣累积奖励(Discounted Cumulative Reward),表示从当前状态开始,未来所有时刻的奖励的加权总和。
- RtR_tRt:第 ttt 步的即时奖励(Immediate Reward)。
- γ∈[0,1]γ∈[0,1]γ∈[0,1]:折扣因子(Discount Factor),表示未来奖励的重要性。
- γ=0γ=0γ=0:只关注当前奖励,完全不考虑未来。
- γ→1γ→1γ→1:未来奖励的重要性逐渐增加,甚至可能无限延续(如永续任务)。
-
举例:
假设 γ=0.9γ=0.9γ=0.9,奖励序列 R0=10,R1=5,R2=2R_0=10,R_1=5,R_2=2R0=10,R1=5,R2=2,则累积奖励为:10+0.9×5+0.92×2=10+4.5+1.62=16.1210+0.9×5+0.9^2×2=10+4.5+1.62=16.1210+0.9×5+0.92×2=10+4.5+1.62=16.12
2.3 γtγ^tγt
-
作用
:对未来的奖励进行衰减,避免无限累加导致发散。
- γ<1γ<1γ<1 确保无限求和 ∑t=0∞γtRt∑_{t=0}^∞γ^tR_t∑t=0∞γtRt 收敛。
- 例如,γ=0.9γ=0.9γ=0.9 时,未来奖励的权重会快速衰减(0.9,0.81,0.729,…0.9,0.81,0.729,…0.9,0.81,0.729,…)。
3. 公式的意义
- 核心思想:
- 强化学习的目标是让智能体(如 ChatGPT 的 RLHF 策略)最大化 长期累积奖励。
- 通过 Vπ(s)V^π (s)Vπ(s),可以量化策略 ππ 在某个状态下的“好坏”。
- 例如,在对话生成中,RtRt 可能是用户对回答的满意度评分,Vπ(s)V^π (s)Vπ(s) 表示该策略下对话的长期质量。
- 应用场景:
- 策略评估(Policy Evaluation):计算某个策略 πππ 的价值函数 Vπ(s)V^π (s)Vπ(s)。
- 策略优化(Policy Optimization):通过调整策略 πππ,最大化 Vπ(s)V^π (s)Vπ(s)。
- ChatGPT 的 RLHF:通过人类反馈训练的奖励模型(RM)生成 RtRtRt,再通过强化学习(PPO)优化策略 πππ。
4. 关键概念总结
| 符号 | 含义 | 作用 |
|---|---|---|
| Vπ(s)V^π (s)Vπ(s) | 状态价值函数 | 衡量策略 πππ 在状态 sss 下的长期价值 |
| $ E_π $ | 期望值 | 统计策略 πππ 下所有可能路径的平均结果 |
| RtR_tRt | 即时奖励 | 第 ttt 步的奖励(如用户评分) |
| γγγ | 折扣因子 | 控制未来奖励的重要性(0≤γ≤10≤γ≤10≤γ≤1) |
5. 实际应用示例
假设 ChatGPT 生成回答时,用户对每个回答的满意度评分 RtRtRt 如下:
- R0=3R0=3R0=3(当前回答的评分)
- R1=2R1=2R1=2(后续对话的评分)
- R2=1R2=1R2=1(更远的对话评分)
- γ=0.9γ=0.9γ=0.9
则累积奖励为:
Vπ(s)=3+0.9×2+0.92×1=3+1.8+0.81=5.61V^π(s)=3+0.9×2+0.9^2×1=3+1.8+0.81=5.61Vπ(s)=3+0.9×2+0.92×1=3+1.8+0.81=5.61
这表示当前策略 ππ 下,对话的长期价值为 5.61 分。
6. 总结
- 期望值 EπE_πEπ 是强化学习的核心概念,用于衡量策略 ππ 在不确定环境中的长期表现。
- 折扣因子 γγγ 平衡了当前与未来奖励的重要性。
- 这个公式在 ChatGPT 的 RLHF 中至关重要:通过最大化 Vπ(s)V^π(s)Vπ(s),模型会生成更符合人类偏好的回答。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)