强化学习的数学原理赵世钰笔记第二节 Bellman Equation 贝尔曼公式

上一章[[强化学习入门]]

tj_hjx

431人浏览 · 2025-10-26 21:56:27

tj_hjx · 2025-10-26 21:56:27 发布

Bellman Equation
上一章[[强化学习入门]]

例子

如何选择最好的策略？如何描述？使用平均的return来表示
如何计算return？可以使用递归计算方式，即当前state得到的return依赖于其他state的return
- Bootstrapping：从自己出发不断迭代得到的结果
- $v=r+γPv\pmb{v}=\pmb{r}+\gamma \pmb{Pv}$ ，将该述公式求解可以得到deterministic的bellman公式

状态价值State Value

状态价值： $vπ(s)=E[Gt∣St=s]v_\pi(s) = \mathbb{E}[G_t|S_t = s]$ 这是基于某个具体状态s得到的value，并且是由策略 $π\pi$ 决定的，其中 $G_t$ 是每个路径的return
return是在某一状态s下针对单个trajectory所求，state value是从某状态s出发的多个trajectory（若存在）得到的return的期望。

推导Bellman Equation

贝尔曼公式是用于计算状态价值的。
以下是比较简化的推导，可以不看，只看结论

针对一个随机的trajectory，可以求 $G_t$ ， $Gt=Rt+1+γGt+1G_t = R_{t+1} + \gamma G_{t+1}$
所以状态价值可以推导为
$\begin{aligned} v_\pi(s) &= \mathbb{E}[G_t|S_t = s] \\ &= \mathbb{E}[R_{t+1}|S_t = s] + \gamma \mathbb{E}[G_{t+1}|S_t = s] \end{aligned}$
下面分析两个expectation，
第一个expectation代表immediate rewards的均值 $E[Rt+1∣St=s]=∑aπ(a∣s)E[Rt+1∣St=s,At=a]=∑aπ(a∣s)∑rp(r∣s,a)r\mathbb{E}[R_{t+1}|S_t = s] = \sum_a \pi(a|s) \mathbb{E}[R_{t+1}|S_t = s, A_t =a] = \sum_a \pi(a|s) \sum_r p(r|s,a)r$ 第二个expectation代表future rewards的均值 $E[Gt+1∣St=s]=∑s′E[Gt+1∣St=s,St+1=s′]p(s′∣s)=∑s′E[Gt+1∣St+1=s′]p(s′∣s)=∑s′vπ(s′)p(s′∣s)=∑s′vπ(s′)∑ap(s′∣s,a)π(a∣s)\begin{aligned}\mathbb{E}[G_{t+1}|S_t = s] &= \sum_{s^\prime} \mathbb{E}[G_{t+1}|S_t = s, S_{t+1} = s^\prime]p(s^\prime | s) \\ &= \sum_{s^\prime} \mathbb{E}[G_{t+1}|S_{t+1} = s^\prime]p(s^\prime | s) \\ &= \sum_{s^\prime} v_\pi(s^\prime) p(s^\prime | s) \\ &= \sum_{s^\prime} v_\pi(s^\prime) \sum_a p(s^\prime|s,a)\pi(a|s) \end{aligned}$ 第二行用到了Markov的无记忆性

最终可推导出bellman公式为 $vπ(s)=∑aπ(a∣s)∑rp(r∣s,a)r+γ∑s′vπ(s′)∑ap(s′∣s,a)π(a∣s)=∑aπ(a∣s)∑rp(r∣s,a)r+γ∑aπ(a∣s)∑s′vπ(s′)p(s′∣s,a)=∑aπ(a∣s)[∑rp(r∣s,a)r+γ∑s′vπ(s′)p(s′∣s,a)],∀s∈S\begin{aligned} {\color{red}v_\pi(s)} &= \sum_a \pi(a|s) \sum_r p(r|s,a)r + \gamma \sum_{s^\prime} v_\pi(s^\prime) \sum_a p(s^\prime|s,a)\pi(a|s) \\ &= \sum_a \pi(a|s) \sum_r p(r|s,a)r + \gamma \sum_a \pi(a|s) \sum_{s^\prime} v_\pi(s^\prime) p(s^\prime|s,a) \\ &= \sum_a \pi(a|s) [\sum_r p(r|s,a)r + \gamma \sum_{s^\prime} {\color{red}v_\pi(s^\prime)} p(s^\prime|s,a)], \forall s \in S\end{aligned}$ bellman公式是一个公式集合（最后的 $∀\forall$ 表示对状态空间的所有状态成立），表达了每个 $vπ(s)v_\pi(s)$ 和所有其他state $s′s^\prime$ 的 $vπ(s′)v_\pi(s^\prime)$ 之间的关系，可以使用线性方程组求解得到每个state的状态价值。

Bellman Equation的矩阵-向量形式

实际就是对bellman公式的扩展改写为 $vπ=rπ+γPπvπv_\pi = r_\pi +\gamma P_\pi v_\pi$ 的形式，再将每个状态都列出则得到一个线性方程组的矩阵形式。

Bellman Equation的求解

基于一个既定的policy，评价其state value称为policy evaluation，即评价一个policy的好坏。

很明显可以直接得到闭式解 $vπ=(I−γPπ)−1rπv_\pi = (I - \gamma P_\pi )^{-1}r_\pi$ ，但是计算消耗大，在state space较大时不适用
迭代求解：先随机初始化一个 $v_0$ ，使用 $vk+1=rπ+γPπvkv_{k+1} = r_\pi +\gamma P_\pi v_k$ 的形式进行迭代，当 $\to \infty$ 时， $v_k$ 将收敛到定值 $vπv_\pi$ 。

Action Value

概念

在某状态下采取某action时得到的return的期望 $qπ(s,a)=E[Gt∣St=s,At=a]q_\pi(s,a)=\mathbb{E}[G_t|S_t=s,A_t=a]$ .

由此可以推出state value为 $vπ(s)=∑aπ(a∣s)qπ(s,a)v_\pi(s)=\sum_a \pi(a|s)q_\pi(s,a)$ 。从这一公式可以看出知道某一状态的action value可以求平均得到该状态的state value。
与上面推导出的bellman 公式比较可以得出 $qπ(s,a)=∑rp(r∣s,a)r+γ∑s′vπ(s′)p(s′∣s,a)q_\pi(s,a) = \sum_r p(r|s,a)r + \gamma \sum_{s^\prime} {\color{red}v_\pi(s^\prime)} p(s^\prime|s,a)$ 从公式中可以看出只要知道每个状态的state value，就可以求出相应state下采取某一action的action value。

用途

action value的用处就是判断某一状态下采取哪个action最优。

计算

先计算state value，再计算action value；或者直接计算action value
下一章[[贝尔曼最优公式]]

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大