【简】深度强化学习理论及其应用综述

方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足. 面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向. 文中从深度

panbaoran913

868人浏览 · 2025-09-18 17:28:42

panbaoran913 · 2025-09-18 17:28:42 发布

在这里插入图片描述

1 深度强化学习的基本理论

1. 1 深度强化学习原理

在这里插入图片描述

在强化学习过程中, 决策的主体称为智能体( Agent) . 智能体首先需要对其所处的状态进行观测,并根据观测结果( Observation) 进行决策, 采取相应行动. 该行动一方面与环境( Environment) 发生交互,环境以奖励的形式对智能体的行动给出相应的反馈;另一方面,该行动改变智能体的状态. 一个循环结束后,智能体开始新一轮的观测,直到智能体进入终止状态,此时一次完整的迭代结束,如图 2 所示. 智能体将此次迭代中的所有状态及其相应的动作以状态 - 动作序列的形式记录下来, 生成轨迹( Trajectory）：

在这里插入图片描述

同时统计每一步的即时回报, 计算此次迭代中获得的累计回报 $G_t$ ,将这些信息作为策略更新时的训练样本.
在这里插入图片描述

1. 2 值函数和策略搜索

1. 2. 1 值函数

在这里插入图片描述

1. 2. 2 策略搜索

在这里插入图片描述

1. 2. 3 演员-评论家模型

在这里插入图片描述

1. 3 基于模型的强化学习和免模型的强化学习

在这里插入图片描述

1.4 深度强化学习的理论困境

在这里插入图片描述

1. 4. 1 探索-利用困境

在这里插入图片描述

2. UCB算法 (Upper Confidence Bound)
在这里插入图片描述

核心思想：平衡已知最优动作的利用和未知动作的探索
计算公式：动作分数 = 平均奖励 + √(2lnN/n)
- 平均奖励：利用项（当前已知最优）
- √(2lnN/n)：探索项（鼓励尝试次数少的动作）
案例：老虎机问题中，有3台老虎机A、B、C：A玩了 $n_A =10$ 次，平均奖励5 。B玩了 $n_B =5$ 次，平均奖励6 。C玩了 $n_C=2$ 次，平均奖励3。总次数N=17, ，计算B的分数(那么 $n_B=5$ )：6 + √(2ln17/5) ≈ 6 + 1.5 = 7.5
虽然A的平均奖励较低，但B的探索项更高.
$动作分数_A =5(平均奖励) + \sqrt{(2\ln (N/n) )} \sim 5+1.030=6.030$
$动作分数_C =3(平均奖励) + \sqrt{(2\ln (N/n) )} \sim 3+2.0688=5.0688$
所以选择B.

可参考链接：《第二章多臂老虎机问题知识点总结》（含背景，累计懊悔、增量式更新期望奖励、ϵ-贪婪策略、上置信界算法(UCB)\汤普森采样算法（Thompson sampling）、代码实现）

3. Noisy Network

核心思想：在神经网络权重中加入参数化噪声
实现方式：每个权重 $w = μ + σ ⊙ ε$ ，其中ε是随机噪声；噪声参数 $μ 和 σ$ 是可训练的
例子：在Atari游戏中：传统DQN使用ε-greedy，动作选择要么完全随机(ε)要么完全确定(1-ε)
- Noisy DQN通过权重噪声实现平滑探索，不需要ε-greedy
- 比如在Breakout游戏中，噪声会让小球击打方向有细微变化
《 Atari游戏介绍》，《Atari 2600游戏合集 - 强化学习经典应用环境》，《用DQN解决Atari game》

4. 最大化熵算法

核心思想：在目标函数中加入策略熵项
公式： $J (θ) = E [累积奖励] + α H (π (\cdot ∣ s))$
- $H (π)$ 是策略熵，α是温度系数
例子：在机器人控制中：传统方法可能只学习到一种行走方式
最大化熵会鼓励学习多种行走方式（如大步、小步等）
这在复杂地形中特别有用，因为需要多种应对策略

1. 4. 2 奖励函数设计的困难与稀疏奖励问题

如何有效地评估策略的好坏是智能体学习效率的关键,目前,策略评估主要依赖于奖励函数,而奖励函数又依赖于人类专家的设计. 对于一些复杂的决策问题,难以设计好的奖励函数. 为此研究人员提出元学习 ( Meta Learning) 、模仿学习 ( ImitationLearning) 等方式,让智能体学习从好的策略中总结相应的奖励函数,用于指导强化学习过程.

在这里插入图片描述
最简单的模仿学习是行为克隆( Behavior Clone) ,根据专家指导, 采取监督学习的方式直接学习策略. 行为克隆仅适用于简单策略的学习,对于更复杂的策略,模仿学习采用的方法是两步迭代式训练法.

一种经典的两步迭代模仿学习方法是学徒学习( Apprenticeship Learning) [46] ,
1️⃣ 在第 1步中,专家首先要对奖励函数建模,将奖励函数定义为一系列基本损失函数的线性组合</font>:
在这里插入图片描述
智能体在此基础上优化奖励函数,从策略池中采样智能体策略. 对比专家策略, 最大化专家策略对应的累积回报的优势

在这里插入图片描述

2️⃣在第 2 步中,智能体利用第 1 步中学习到的奖励函数指导强化学习过程,更新策略,将更新后的策略存入策略池中. 经过迭代可以得到最终的奖励函数和目标策略.

近两年的模仿学习研究主要聚焦于机器人控制领域的应用, 其中一个较重要的发现是 OpenAI 团队[48] 提出的对抗模仿学习 ( Generative Adversarial Imitation Learning,GAIL) 模型. GAIL 将生成对抗网络引入模仿学习中,使用生成器生成行动,使用判别器判别行动是否来源于专家策略,获得较好效果. 一些其它的工作包括简化模仿学习的复杂性[49] , 提高样本的利用效率[50] 、提高算法的鲁棒性[51] 等也受到研究者们的关注.

1. 4. 3 策略优化过程中面临的挑战

在这里插入图片描述

3. 深度强化学习应用及其面对的挑战

3. 1 机器人控制

在这里插入图片描述

3.2 游戏

在这里插入图片描述

3.3 其他领域

在这里插入图片描述

4. 未来展望与挑战

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大