在这里插入图片描述

1 深度强化学习的基本理论

1. 1 深度强化学习原理

在这里插入图片描述

在强化 学 习 过 程 中, 决 策 的 主 体 称 为 智 能 体( Agent) . 智能体首先需要对其所处的状态进行观测,并根据观测结果( Observation) 进行决策, 采取相应行动. 该行动一方面与环境( Environment) 发生交互,环境以奖励的形式对智能体的行动给出相应的反馈;另一方面,该行动改变智能体的状态. 一个循环结束后,智能体开始新一轮的观测,直到智能体进入终止状态,此时一次完整的迭代结束,如图 2 所示. 智能体将此次迭代中的所有状态及其相应的动作以 状 态 - 动 作 序 列 的 形 式 记 录 下 来, 生 成 轨迹( Trajectory):

在这里插入图片描述

在这里插入图片描述在这里插入图片描述

同时统计每一步的即时回报, 计算此次迭代中获得的累计回报 G t G_t Gt ,将这些信息作为策略更新时的训练样本.
在这里插入图片描述

1. 2 值函数和策略搜索

1. 2. 1 值函数

在这里插入图片描述

1. 2. 2 策略搜索

在这里插入图片描述

1. 2. 3 演员-评论家模型

在这里插入图片描述

1. 3 基于模型的强化学习和免模型的强化学习

在这里插入图片描述

1.4 深度强化学习的理论困境

在这里插入图片描述

1. 4. 1 探索-利用困境

在这里插入图片描述

2. UCB算法 (Upper Confidence Bound)
在这里插入图片描述

  • 核心思想:平衡已知最优动作的利用和未知动作的探索
  • 计算公式:动作分数 = 平均奖励 + √(2lnN/n)
    • 平均奖励:利用项(当前已知最优)
    • √(2lnN/n):探索项(鼓励尝试次数少的动作)
  • 案例:老虎机问题中,有3台老虎机A、B、CA玩了 n A = 10 n_A =10 nA=10次,平均奖励5 。B玩了 n B = 5 n_B =5 nB=5次,平均奖励6 。C玩了 n C = 2 n_C=2 nC=2次,平均奖励3。 总次数N=17, ,计算B的分数(那么 n B = 5 n_B=5 nB=5):6 + √(2ln17/5) ≈ 6 + 1.5 = 7.5
    虽然A的平均奖励较低,但B的探索项更高.
    动作分 数 A = 5 ( 平均奖励 ) + ( 2 ln ⁡ ( N / n ) ) ∼ 5 + 1.030 = 6.030 动作分数_A =5(平均奖励) + \sqrt{(2\ln (N/n) )} \sim 5+1.030=6.030 动作分A=5(平均奖励)+(2ln(N/n)) 5+1.030=6.030
    动作分 数 C = 3 ( 平均奖励 ) + ( 2 ln ⁡ ( N / n ) ) ∼ 3 + 2.0688 = 5.0688 动作分数_C =3(平均奖励) + \sqrt{(2\ln (N/n) )} \sim 3+2.0688=5.0688 动作分C=3(平均奖励)+(2ln(N/n)) 3+2.0688=5.0688
    所以选择B.

    可参考链接:《第二章 多臂老虎机问题 知识点总结》 (含背景,累计懊悔、增量式更新期望奖励、ϵ-贪婪策略、上置信界算法(UCB)\汤普森采样算法(Thompson sampling)、代码实现)

3. Noisy Network

  • 核心思想:在神经网络权重中加入参数化噪声
  • 实现方式:每个权重 w = μ + σ ⊙ ε w = μ + σ⊙ε w=μ+σε,其中ε是随机噪声; 噪声参数 μ 和 σ μ和σ μσ是可训练的
  • 例子:在Atari游戏中: 传统DQN使用ε-greedy,动作选择要么完全随机(ε)要么完全确定(1-ε)
    • Noisy DQN通过权重噪声实现平滑探索,不需要ε-greedy
    • 比如在Breakout游戏中,噪声会让小球击打方向有细微变化

    《 Atari游戏介绍》《Atari 2600游戏合集 - 强化学习经典应用环境》《用DQN解决Atari game》

4. 最大化熵算法

  • 核心思想:在目标函数中加入策略熵项

  • 公式: J ( θ ) = E [ 累积奖励 ] + α H ( π ( ⋅ ∣ s ) ) J(θ) = E[累积奖励] + αH(π(·|s)) J(θ)=E[累积奖励]+αH(π(s))

    • H ( π ) H(π) H(π)是策略熵,α是温度系数
  • 例子:在机器人控制中:传统方法可能只学习到一种行走方式
    最大化熵会鼓励学习多种行走方式(如大步、小步等)
    这在复杂地形中特别有用,因为需要多种应对策略

1. 4. 2 奖励函数设计的困难与稀疏奖励问题

如何有效地评估策略的好坏是智能体学习效率的关键,目前,策略评估主要依赖于奖励函数,而奖励函数又依赖于人类专家的设计. 对于一些复杂的决策问题,难以设计好的奖励函数. 为此研究人员提出 元 学 习 ( Meta Learning) 、 模 仿 学 习 ( ImitationLearning) 等方式,让智能体学习从好的策略中总结相应的奖励函数,用于指导强化学习过程.

在这里插入图片描述
最简单的模仿学习是行为克隆( Behavior Clone) ,根据专家指导, 采取监督学习的方式直接学习策略. 行为克隆仅适用于简单策略的学习,对于更复杂的策略,模仿学习采用的方法是两步迭代式训练法.

一种经典的两步迭代模仿学习方法是学徒学习( Apprenticeship Learning) [46] ,
1️⃣ 在第 1步中,专家首先要对奖励函数建模,将奖励函数定义为一系列基本损失函数的线性组合</font>:
在这里插入图片描述
智能体在此基础上优化奖励函数,从策略池中采样智能体策略. 对比专家 策 略, 最 大 化 专 家 策 略 对 应 的 累 积 回 报 的优势

在这里插入图片描述

2️⃣在第 2 步中,智能体利用第 1 步中学习到的奖励函数指导强化学习过程,更新策略,将更新后的策略存入策略池中. 经过迭代可以得到最终的奖励函数和目标策略.

近两年的模仿学习研究主要聚焦于机器人控制领域的应用, 其中一个较重要的发现是 OpenAI 团队[48] 提出的对抗模仿学习 ( Generative Adversarial Imitation Learning,GAIL) 模型. GAIL 将生成对抗网络引入模仿学习中,使用生成器生成行动,使用判别器判别行动是否来源于专家策略,获得较好效果. 一些其它的工作包括简化模仿 学 习 的 复 杂 性[49] , 提 高 样 本 的 利 用 效率[50] 、提高算法的鲁棒性[51] 等也受到研究者们的关注.

1. 4. 3 策略优化过程中面临的挑战

在这里插入图片描述

3. 深度强化学习应用及其面对的挑战

3. 1 机器人控制

在这里插入图片描述

3.2 游戏

在这里插入图片描述

3.3 其他领域

在这里插入图片描述

4. 未来展望与挑战

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐