【强化学习】同策略学习（On-Policy ）与异策略学习（Off-Policy ）

摘要：强化学习中的策略优化分为同策略（On-Policy）和异策略（Off-Policy）两类。同策略（如SARSA、PPO）直接通过目标策略与环境交互采集数据，样本分布一致但利用率低；异策略（如Q-Learning、DQN）则通过行为策略采集数据供目标策略学习，支持数据复用和离线训练，但需重要性采样解决分布偏差问题。前者训练稳定但效率低，后者样本利用率高但需处理分布差异。典型算法的选择取决于任

自信的小螺丝钉

472人浏览 · 2025-11-07 01:39:02

自信的小螺丝钉 · 2025-11-07 01:39:02 发布

同策略学习（On-Policy ）

用待优化的目标策略直接与环境交互，策略自己为自己采集数据，然后更新策略，样本分布与目标策略分布完全一致

典型算法：

蒙特卡洛采样：用当前策略采样完整轨迹，基于轨迹的累积奖励更新策略；
SARSA 算法：用当前策略采样 “状态 - 动作 - 奖励 - 下一状态 - 下一动作”（SARSA）样本，更新 Q 函数（进而优化策略）；
近端策略优化（PPO）：虽支持一定程度的样本复用，但核心样本仍由当前策略在线采集（每次更新策略前，用当前策略采集一批样本）。
优点：样本与策略完全对齐，无 “分布偏移” 问题；
缺点：样本利用率低（策略更新后，旧样本因分布与新策略不一致而失效，需重新采集），训练效率较低（尤其在复杂环境中，交互成本高）。

异策略学习（Off-Policy ）

一个策略（行为策略，Behavior Policy）与环境交互采集样本，另一个策略（目标策略，Target Policy）利用这些样本中学习并优化自己（借别人的经验，提升自己）。样本分布与目标策略分布可能不一致（需用 重要性采样 技术，用来修正不同策略之间的 “数据分布差异”）

典型算法：

Q-Learning：行为策略通常是 “ε- 贪心策略”（90% 选当前最优动作，10% 随机动作，保证探索），目标策略是 “贪心策略”（只选最优动作），用行为策略的样本更新目标策略的 Q 函数；
深度 Q 网络（DQN）：延续 Q-Learning 的异策略逻辑，用 ε- 贪心策略采集样本存入 “经验回放池”（Replay Buffer），目标 Q 网络从回放池中随机采样样本更新，进一步提升样本利用率。
优点：
- 样本利用率高，异策略的核心优势就是 “数据复用”，可以利用已有的大量离线数据（行为策略采集的样本可存入回放池，被目标策略反复利用），不需要每次更新策略都重新收集数据，适合与 “离线学习” 结合
- 探索与利用分离（行为策略可专注于探索未知环境，目标策略可专注于优化性能，避免因 “过度探索” 影响策略收敛）。
缺点：样本分布与目标策略可能存在偏差，需通过 重要性采样，经验回放池（Experience Replay Buffer） 解决强化学习训练中的数据相关性、样本利用效率低等问题，尤其等手段缓解，否则可能导致训练不稳定。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大