【大模型】强化学习（下）

动作价值函数（Action-Value Function）定义 Q 函数Qπ(s,a)=Eπ[∑t=0∞γt rt+1 ∣ s0=s, a0=a]Q^\pi(s,a) = \mathbb{E}_\pi\bigl[\sum_{t=0}^\infty \gamma^t\,r_{t+1}\,\big|\,s_0=s,\,a_0=a\bigr]Qπ(s,a)=Eπ[t=0∑∞γtrt+1s0=s

油泼辣子多加

546人浏览 · 2025-06-18 15:06:07

油泼辣子多加 · 2025-06-18 15:06:07 发布

Q‑Learning

一、背景与概念

强化学习（Reinforcement Learning, RL）
强化学习研究的是智能体（agent）在环境（environment）中通过试错交互，以最大化累积奖励（cumulative reward）的问题。智能体每一步观察状态 $s$ ，选择动作 $a$ ，获得即时奖励 $r$ ，并转移到下一个状态 $s^{'}$ 。
马尔可夫决策过程（Markov Decision Process, MDP）
强化学习通常建模为 MDP，定义为五元组 $(S,A,P,R,γ)(\mathcal{S}, \mathcal{A}, P, R, \gamma)$ ：
- $S\mathcal{S}$ ：状态空间
- $A\mathcal{A}$ ：动作空间
- $P (s^{'} ∣ s, a)$ ：状态转移概率
- $R (s, a)$ ：即时奖励函数
- $γ∈[0,1)\gamma\in[0,1)$ ：折扣因子

二、Q‑Learning 的核心思想

动作价值函数（Action-Value Function）
定义 Q 函数 $a0=a]Q^\pi(s,a) = \mathbb{E}_\pi\bigl[\sum_{t=0}^\infty \gamma^t\,r_{t+1}\,\big|\,s_0=s,\,a_0=a\bigr]$

表示在状态 $s$ 采取动作 $a$ ，随后按策略 $π\pi$ 行动时，所能获得的折扣累积奖励期望。
最优 Q 函数

$Q∗(s,a)=max⁡πQπ(s,a)Q^*(s,a) = \max_{\pi} Q^\pi(s,a)$

满足贝尔曼最优性方程（Bellman Optimality Equation）：
$s,a]Q^*(s,a) = \mathbb{E}_{s'}\Bigl[\,r + \gamma\max_{a'} Q^*(s',a')\,\Big|\,s,a\Bigr]$
核心思想：通过不断地“自举”（bootstrapping），利用当前对 $Q$ 的估计来更新自身，最终收敛到最优函数 $Q^*$ 。

三、Q‑Learning 算法流程

初始化
- 对所有状态—动作对 $(s, a)$ 初始化 $Q (s, a)$ （可设为 0 或小随机值）。
循环直至收敛（或达到最大迭代次数）
1. 在当前状态 $s$ 下，根据 ε-贪婪策略（或其他探索策略）选择动作 $a$ 。 $\begin{cases} \text{随机选择}\quad& \text{以概率 }\varepsilon,\\ \arg\max_{a'} Q(s,a')\quad& \text{以概率 }1-\varepsilon. \end{cases}$
2. 执行动作 $a$ ，观察即时奖励 $r$ 和下一个状态 $s^{'}$ 。
3. Q 值更新 $\gets Q(s,a) + \alpha \bigl[\,r + \gamma\max_{a'} Q(s',a') - Q(s,a)\bigr]$
  - $α∈(0,1]\alpha\in(0,1]$ ：学习率
  - $γ∈[0,1)\gamma\in[0,1)$ ：折扣因子
4. 状态转移： $\leftarrow s'$
5. 若 $s^{'}$ 为终止状态，则重置为初始状态，继续下一回合。
输出最终的 $Q$ 函数，可用于派生最优策略：
$π∗(s)=arg⁡max⁡aQ(s,a).\pi^*(s) = \arg\max_a Q(s,a).$ 率低，可结合基于模型或信息论的方法。

四、通俗解释

Q‑Learning 就像训练一个小伙伴在迷宫里找宝藏：它通过不断试错，在每一步记录「在某个位置做某个动作能拿到多少回报」（也就是 Q 值），然后根据“这一步拿到的奖励＋预测下步最大奖励”的总和来更新记录。随着尝试越来越多，小伙伴就能学会在每个位置选最有可能通向宝藏的动作，最终找到最优路径。

DQN

一、背景与动机

传统 Q‑Learning 需用表格存储 $Q (s, a)$ ，当状态空间或动作空间很大（如图像输入、复杂连续空间）时，表格法无法扩展。DQN 的核心思想是用深度神经网络来近似 Q 函数，即用参数化模型 $Q(s,a;θ)Q(s,a;\theta)$ 代替传统的查表，从而能处理高维、连续的状态表示。

二、核心组成

Q 网络
输入当前状态（如游戏帧堆叠后的图像），输出对每个动作的 $Q$ 值估计：
$Q(s,a;θ)≈Q∗(s,a)Q(s,a;\theta)\approx Q^*(s,a)$
经验回放（Experience Replay）
- 将智能体与环境交互得到的四元组 $(s, a, r, s^{'})$ 存入一个“回放缓冲区”
- 每次训练时，从缓冲区中随机抽取小批量样本，打破样本间的时序相关，提升数据利用率和收敛稳定性
目标网络（Target Network）
- 除了主 $Q$ 网络 $θ\theta$ ，还维护一份延迟更新的目标网络参数 $θ−\theta^-$
- 用目标网络来计算 $T D$ 目标：
  $\gamma \max_{a'} Q(s',a';\theta^-)$
- 每隔固定步数，将 $θ−←θ\theta^-\leftarrow \theta$ ，再继续训练，防止自举目标变化过快导致的不稳定

三、DQN 算法流程

初始化
- 初始化主网络参数 $θ\theta$
- 复制得到目标网络参数 $θ−=θ\theta^- = \theta$
- 构建经验回放池 $D\mathcal{D}$
与环境交互并存储经验
- 在状态 $s$ 下，采用 ε‑贪婪策略从 $Q(s;θ)Q(s;\theta)$ 中选动作 $a$ ，执行得到 $(r, s^{'})$
- 将 $(s, a, r, s^{'})$ 存入 $D\mathcal{D}$
采样与训练（每步或每 $K$ 步执行一次）
1. 从 $D\mathcal{D}$ 中随机抽取一个小批量 ${(s_i,a_i,r_i,s'_i)\}$
2. 计算目标值
  $max⁡a′Q(si′,a′;θ−),否则.y_i = \begin{cases} r_i, & \text{若 } s'_i \text{ 为终止状态,}\\ r_i + \gamma\,\max_{a'}Q(s'_i,a';\theta^-), & \text{否则.} \end{cases}$
3. 对主网络最小化均方误差损失
  $L(θ)=1N∑i(yi−Q(si,ai;θ))2L(\theta) = \frac{1}{N}\sum_i\bigl(y_i - Q(s_i,a_i;\theta)\bigr)^2$
4. 使用梯度下降更新 $θ\theta$
周期性同步
- 每隔 $C$ 步，将目标网络参数 $θ−←θ\theta^-\leftarrow \theta$
重复
- 直到训练结束或达到性能要求

四、通俗解释

DQN 就像给小伙伴装上了“脑力相机”（神经网络），它一边玩游戏一边把每一步的画面、动作和得分（经验）存到“回放盒子”里，然后随机拿出过去的片段来复习，让他学到哪些操作最划算；与此同时，还用一个“慢动作回放机”（目标网络）来帮他稳定地估算下步最优得分，避免他因为自己连连更新脑力相机而走火入魔。这样，小伙伴就能快速又稳健地从高维画面中学会最聪明的动作策略。

DDPG

一、背景与动机

连续动作空间挑战
传统DQN及其变体擅长离散动作，但面对高维、连续动作（如机械臂角度、油门刹车力度）则难以直接套用。
确定性策略梯度（Deterministic Policy Gradient, DPG）
与随机策略梯度不同，DPG 直接学习一个确定性策略 $μ(s;θμ)\mu(s;\theta^\mu)$ ，输出连续动作，目标是最大化长期期望回报： $J(θμ)=Es∼ρμ[Q(s,μ(s;θμ);θQ)].J(\theta^\mu) = \mathbb{E}_{s\sim \rho^\mu}\bigl[Q(s,\mu(s;\theta^\mu);\theta^Q)\bigr].$

二、算法总体架构

DDPG 是结合DPG与深度网络的离线、基于价值的 Actor‑Critic 框架，包含：

Actor 网络 $μ(s;θμ)\mu(s;\theta^\mu)$
接收状态 $s$ ，输出确定性动作 $a∈Rna\in\mathbb{R}^n$ 。
Critic 网络 $Q(s,a;θQ)Q(s,a;\theta^Q)$
接收状态-动作对 $(s, a)$ ，估计其动作价值。
经验回放池 $D\mathcal{D}$
存储交互四元组 $(s, a, r, s^{'})$ ，用于打破时序相关、提升样本效率。
目标网络
为 Actor 和 Critic 各维护一份延迟更新的副本 $Q−θμ−Q−\theta^{\mu^-}$ , $θQ−\theta^{Q^-}$ ，保证训练稳定。

三、核心更新公式

Critic 更新
以目标网络计算的 TD 目标 $y$ 进行最小二乘回归：
$\gamma\,Q(s',\,\mu(s';\theta^{\mu^-});\theta^{Q^-})$ $L(\theta^Q) = \mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\!\bigl[\bigl(Q(s,a;\theta^Q)-y\bigr)^2\bigr].$
Actor 更新
应用确定性策略梯度定理，最大化 Critic 对 Actor 输出动作的 $Q$ 值：
$∇θμμ(s;θμ)].\nabla_{\theta^\mu}J \approx \mathbb{E}_{s\sim\mathcal{D}}\!\Bigl[\nabla_a Q(s,a;\theta^Q)\bigl|_{a=\mu(s)} \,\nabla_{\theta^\mu}\mu(s;\theta^\mu)\Bigr].$
目标网络软更新
对目标网络参数做“软替换”：
$θμ−\theta^{Q^-} \leftarrow \tau\,\theta^Q + (1-\tau)\,\theta^{Q^-},\quad \theta^{\mu^-} \leftarrow \tau\,\theta^\mu + (1-\tau)\,\theta^{\mu^-}$
其中 $τ≪1\tau\ll1$ （如 $10^{-3}$ ）保证平滑更新。

四、通俗解释

DDPG 就像给小伙伴装了两个“大脑”——一个“演戏大脑”（Actor），负责根据当前情况直接给出最合适的连续动作；另一个“鉴赏大脑”（Critic），负责评估这些动作有多好。小伙伴一边尝试动作一边把经历（你做了什么、得了多少分、看到了什么）存进“回放盒子”，然后随机复习，借助“慢动作回放机”（目标网络）稳定地算出下次应该怎么调整这两颗大脑的参数。这样，他就能在连续、细腻的操作空间里快速又稳健地学会最赚钱的动作策略。

PPO

一、背景与动机

在策略梯度（Policy Gradient）方法中，传统的REINFORCE虽然能直接优化策略，但容易出现“策略更新步幅过大导致性能剧烈波动甚至崩溃”的问题；而信赖域策略优化（TRPO）虽能保证更新的稳定性，却需要二阶近似与复杂的约束优化，计算开销高。PPO（Proximal Policy Optimization）由 OpenAI 提出，旨在兼顾稳定性与计算效率，成为目前深度强化学习中应用最广泛的策略优化算法之一。

二、核心思想

PPO 的核心在于对原始策略梯度目标函数做裁剪（clipping）或罚项（penalty），以限制新旧策略差异，从而在每次更新时避免策略更新过大。它以一种一阶方法实现对 KL 散度的隐式控制，既保留了 TRPO 的稳定性，又不需要复杂的二阶求解。

三、目标函数形式

1. 裁剪目标（Clipped Surrogate Objective）

$At)]L^{\text{CLIP}}(\theta) = \mathbb{E}_{t}\Bigl[\min\bigl(r_t(\theta)\,A_t,\;\text{clip}(r_t(\theta),1-\epsilon,1+\epsilon)\,A_t\bigr)\Bigr]$

$rt(θ)=πθ(at∣st)πθold(at∣st)是策略比率r_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}是策略比率$

$ϵ\epsilon$ 是超参数（如 0.1 或 0.2），表示允许的策略变动幅度。
$A_t$ 是优势函数估计（Advantage Estimate），通常用 GAE（Generalized Advantage Estimation）计算。
这一项会在 $rt(θ)r_t(\theta)$ 超出 $[1−ϵ,1+ϵ][1-\epsilon,1+\epsilon]$ 时，将其拉回该区间，从而对梯度贡献做截断。

2. 价值函数损失（Value Function Loss）

$LVF(θ)=Et[(Vθ(st)−Vttarget)2]L^{\text{VF}}(\theta) = \mathbb{E}_{t}\bigl[\bigl(V_\theta(s_t)-V^{\text{target}}_t\bigr)^2\bigr]$

$VttargetV^{\text{target}}_t$ 可用蒙特卡洛回报或时序差分回报计算。

3. 熵正则化（Entropy Bonus）

$LS(θ)=Et[H(πθ(⋅∣st))]L^{\text{S}}(\theta) = \mathbb{E}_{t}\bigl[\mathcal{H}\bigl(\pi_\theta(\cdot|s_t)\bigr)\bigr]$

鼓励策略输出分布的熵，促进探索。

4. 总目标

$LS(θ)L(\theta) = -L^{\text{CLIP}}(\theta) + c_1\,L^{\text{VF}}(\theta) - c_2\,L^{\text{S}}(\theta)$

$c_1, c_2$ 分别是价值函数损失与熵正则化的权重。

四、算法流程

数据收集
使用当前策略 $πθold\pi_{\theta_{\text{old}}}$ 在环境中运行 $T$ 步，收集 ${(s_t,a_t,r_t,s_{t+1})\}$ $_{t=1}^T$ 。
优势估计
采用 GAE 计算优势函数： $A^t=∑l=0∞(γλ)lδt+l，δt=rt+γVθold(st+1)−Vθold(st)\hat A_t = \sum_{l=0}^{\infty} (\gamma\lambda)^l \delta_{t+l}，\quad \delta_t = r_t + \gamma V_{\theta_{\text{old}}}(s_{t+1}) - V_{\theta_{\text{old}}}(s_t)$
多轮小批量更新
将数据随机打乱后分成若干 mini‑batch，重复 $K$ 次对参数 $θ\theta$ 进行梯度上升／下降：
- 计算裁剪目标 $LCLIPL^{\text{CLIP}}$ 、价值损失 $LVFL^{\text{VF}}$ 、熵bonus。
- 梯度更新：
  $∇θL(θ)\theta \leftarrow \theta - \alpha\,\nabla_\theta L(\theta)$
策略替换
更新完毕后，将 $θold←θ\theta_{\text{old}}\leftarrow \theta$ ，进入下一轮数据收集。

五、通俗解释

PPO 就像带狗散步时，你给了它自由去探索，但又不想它走得太远跑飞了——你用一根“隐形牵引绳”限制它每一步的偏移。具体来说，PPO 在更新策略时会计算新旧策略的概率比率，如果比率变化超出设定范围（比如±20%），就把它“夹住”不让它动太大；这样既能让策略稳步改进，又能防止一次性更新过猛把好成果全部破坏。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大