同策略学习(On-Policy )

待优化的目标策略直接与环境交互,策略自己为自己采集数据,然后更新策略,样本分布与目标策略分布完全一致

典型算法:

  • 蒙特卡洛采样:用当前策略采样完整轨迹,基于轨迹的累积奖励更新策略;

  • SARSA 算法:用当前策略采样 “状态 - 动作 - 奖励 - 下一状态 - 下一动作”(SARSA)样本,更新 Q 函数(进而优化策略);

  • 近端策略优化(PPO):虽支持一定程度的样本复用,但核心样本仍由当前策略在线采集(每次更新策略前,用当前策略采集一批样本)。

  • 优点:样本与策略完全对齐,无 “分布偏移” 问题;

  • 缺点:样本利用率低(策略更新后,旧样本因分布与新策略不一致而失效,需重新采集),训练效率较低(尤其在复杂环境中,交互成本高)。

异策略学习(Off-Policy )

一个策略(行为策略,Behavior Policy)与环境交互采集样本,另一个策略(目标策略,Target Policy)利用这些样本中学习并优化自己(借别人的经验,提升自己)。样本分布与目标策略分布可能不一致(需用 重要性采样 技术,用来修正不同策略之间的 “数据分布差异”)

典型算法:

  • Q-Learning:行为策略通常是 “ε- 贪心策略”(90% 选当前最优动作,10% 随机动作,保证探索),目标策略是 “贪心策略”(只选最优动作),用行为策略的样本更新目标策略的 Q 函数;

  • 深度 Q 网络(DQN):延续 Q-Learning 的异策略逻辑,用 ε- 贪心策略采集样本存入 “经验回放池”(Replay Buffer),目标 Q 网络从回放池中随机采样样本更新,进一步提升样本利用率。

  • 优点:

    • 样本利用率高,异策略的核心优势就是 “数据复用”,可以利用已有的大量离线数据(行为策略采集的样本可存入回放池,被目标策略反复利用),不需要每次更新策略都重新收集数据,适合与 “离线学习” 结合
    • 探索与利用分离(行为策略可专注于探索未知环境,目标策略可专注于优化性能,避免因 “过度探索” 影响策略收敛)。
  • 缺点:样本分布与目标策略可能存在偏差,需通过 重要性采样经验回放池(Experience Replay Buffer) 解决强化学习训练中的数据相关性、样本利用效率低等问题,尤其 等手段缓解,否则可能导致训练不稳定。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐