用动作分块的强化学习
25年7月来自 UC Berkeley 和 PI 公司的论文“Reinforcement Learning with Action Chunking”。Q-chunking (QC)是一种简单而有效的方法,用于改进强化学习 (RL) 算法,使其能够执行长周期、稀疏奖励任务。该方法专为离线-到-在线的强化学习 (RL) 设置而设计,其目标是利用离线的先验数据集来最大化在线学习的样本效率。在这种设置下
25年7月来自 UC Berkeley 和 PI 公司的论文“Reinforcement Learning with Action Chunking”。
Q-chunking (QC)是一种简单而有效的方法,用于改进强化学习 (RL) 算法,使其能够执行长周期、稀疏奖励任务。该方法专为离线-到-在线的强化学习 (RL) 设置而设计,其目标是利用离线的先验数据集来最大化在线学习的样本效率。在这种设置下,有效的探索和高效的样本学习仍然是核心挑战,因为如何利用离线数据来获得良好的探索性策略尚不明确。其关键见解是,动作分块(action chunking)是一种在模仿学习中流行的技术,它预测的是未来动作的序列,而不是每个时间步的单个动作。它可以应用于基于时间差分 (TD) 的强化学习 (RL) 方法,以减轻探索挑战。Q-chunking 在“分块”的动作空间中直接运行强化学习 (RL) ,使智体能够 (1) 利用离线数据中时间一致的行为进行更有效的在线探索,以及 (2) 使用无偏的 n-步备份进行更稳定、更高效的时间差分(TD)学习。实验结果表明,Q-chunking 表现出强大的离线性能和在线采样效率,在一系列长期、稀疏奖励操作任务中优于之前最好的离线-到-在线方法。
如图所示:Q-chunking (QC)使用动作分块来实现快速值(V)-备份和具有时间连贯动作的有效探索。

强化学习 (RL) 有望仅基于奖励函数解决任何给定任务。然而,这种简单直接的 RL 问题表述通常并不切实际:在复杂环境中,完全从头开始探索以学习有效的策略可能成本高昂,因为它要求智体在学习好的策略之前,通过随机机会成功解决任务。事实上,即使是人类和动物也很少完全从头开始解决新任务,而是利用过去经验中的先验知识和技能。受此启发,近期许多研究尝试将先前的离线数据融入在线 RL 探索中 [27, 36, 77]。但这带来了一系列新的挑战:离线数据的分布可能与智体在线应遵循的策略不匹配,从而引入分布漂移,而且如何利用离线数据来获得良好的在线探索性策略也并不明确。
在模仿学习 (IL) 这一相关领域,近年来一种广泛使用的方法是采用动作分块。这种方法不是训练策略根据先前数据的状态观察来预测单个动作,而是训练策略预测一小段未来动作(“动作组块”)[82, 11]。虽然对于 IL 中动作分块有效性的完整解释仍是一个悬而未决的问题,但其有效性至少可以部分归因于更好地处理离线数据中的非马尔可夫行为,本质上提供了一种更强大的工具来建模可能出现在(例如)人类提供的演示或不同行为混合中的各种复杂分布 [82]。动作分块在强化学习中尚未得到广泛应用,可能是因为完全可观察的马尔可夫决策过程 (MDP) 中的最优策略是马尔可夫的 [68],因此分块似乎没有必要。
尽管可能期望最终得到最优的马尔可夫策略,但探索问题可以通过非马尔可夫和时间扩展技能更好地解决,而动作分块提供了一种非常简单便捷的方法来实现这一点。此外,动作分块提供一种更好地利用离线数据的方法(可以更好地处理数据中的非马尔可夫行为),甚至通过启用无偏 n-步更新(其中 n 与分块长度匹配),提高了基于时间差 (TD) 的强化学习稳定性和效率。因此,结合离线数据的预训练,动作分块提供一种令人信服且非常简单的方法来缓解强化学习中的探索挑战。
带有动作分块的 Q-学习(或简称 Q-chunking),这是一种在离线-到-在线强化学习环境中改进通用基于时间差(TD) Actor-Critic (AC)强化学习算法的方法。其核心思想是在动作序列层面运行强化学习——(1) 策略预测接下来 h 步的动作序列,并以开环方式逐一执行;(2) Critics 会考虑当前状态和一系列动作,并估算执行整个序列而非单个动作的值。在这个扩展的动作空间上运行强化学习有双重好处:(1) 可以通过将策略正则化为一些表现出时间一致性的先验行为数据,来优化策略以生成时间一致性的动作;(2) 使用一个标准 TD-备份损失训练的 Critics 可以有效地执行 n -步备份,并且不会出现离线-策略偏差(这种偏差通常出现在简单的 n 步-回归方法中),因为 Critics 会考虑完整的动作序列。
相关工作
离线-到-在线强化学习方法,专注于利用先前的离线数据来加速在线强化学习 [80, 65, 35, 1, 81, 83, 7, 47, 84, 36]。解决离线-到-在线强化学习最简单的方法是使用现有的离线强化学习算法,首先在离线数据上进行预训练,然后使用相同的离线优化目标,使用不断增长的数据集(该数据集结合原始离线数据和重放缓冲区数据)继续进行在线训练 [46, 34, 31, 70, 54, 2, 39, 35]。虽然简单易懂,但这种简单的方法往往会导致过度悲观,从而阻碍探索,从而降低在线样本效率。一些先前的研究尝试通过在线调整悲观程度来解决这个问题 [84, 47, 39, 35, 75]。然而,这些方法可能难以调优,而且有时与简单、正则化良好的在线强化学习算法(该算法从零开始在离线数据和在线重放缓冲区数据上学习)相比,在线样本效率仍然不足 [7]。
动作分块,是机器人专家在模仿学习 (IL) 中推广的一种技术,其中策略以开环方式预测并执行一系列动作(“动作块”)[82]。动作分块已被证明可以提高策略鲁棒性 [82, 22, 8],并处理离线数据中的非马尔可夫行为 [82]。现有的结合动作分块强化学习方法通常侧重于对经过模仿学习预训练的策略进行微调 [57, 60]。Tian [71] 提出通过将 n 步回报与 Transformer 相结合来学习动作块上的 Critics。然而,他们的方法仅对 Critic 应用分块,同时仍在优化单步 Actor。
探索时间相干的动作,现有方法要么依赖于通过启发式方法构建的时间相关动作噪声 [37];要么依赖于分层结构化的策略,这些策略在在线训练期间通常难以稳定;要么依赖于预训练的冻结技能策略 [56, 77],这些策略无法进行细粒度的在线微调。
分层强化学习 (HRL) ,是一个选项框架。学习时间扩展的动作,在分层强化学习文献中也得到了广泛的研究 [14, 16, 73, 13, 33, 74, 55, 58, 45, 3, 61, 56, 21, 79]。HRL 方法通常会训练一个可直接与环境交互的低级策略空间,以及一个在这些低级策略中进行选择的高级策略。这些低级策略可以是手动设计的 [12],也可以是在线自动发现的 [16, 33, 73, 74, 45],或者使用离线技能发现方法进行预训练 [50, 43, 61, 3, 64, 56, 72, 48, 27, 19, 9, 53]。选项框架提供了一种略微更复杂、更强大的表述,其中低级策略还与可学习的初始条件和终止条件相关联,从而使低级策略的使用更加灵活 [69, 42, 10, 41, 62, 63, 30, 13, 66, 49, 18, 4, 29, 5, 6, 15]。HRL 中一个长期存在的挑战是其双层优化问题:当训练期间同时更新低级和高级策略时,高级策略必须优化移动的目标函数,这可能导致不稳定 [45]。为了缓解这个问题,一些方法在初始预训练后保持低级策略冻结 [3, 56, 77],以提高在线训练期间的稳定性。
多步潜空间规划与搜索,是基于模型的强化学习方法中常用的一种技术,这类方法利用已学习的模型优化短期动作序列,使其获得高回报轨迹 [49, 59]。这些方法的工作原理是在编码的潜空间中训练一个动态模型,该模型输入一个潜状态和一个动作,以预测下一个潜状态及其相关的奖励值。该潜动态模型与基于潜状态的价值网络相结合,只需在潜动态模型中模拟动作序列,即可实时估算出从给定潜状态开始的任何动作序列 Q 值。
背景知识
离线-到-在线 RL。本文考虑一个无限视野、完全可观测的马尔可夫决策过程 (MDP),(S, A, ρ, T, r, γ),其中 S 是状态空间,A 是动作空间,T(s′|s,a) : S × A → ∆(S) 是转换核,r(s, a) : S × A → R 是奖励函数,ρ : ∆(S) 是初始状态分布,γ ∈ [0, 1) 是折扣因子。还假设存在一个先前的离线数据集 D,它由来自 M 的转换展开 {(s, a, s′, r)} 所组成。离线-到-在线 RL 的目标是找到一个策略 π(a|s) : S → ∆(A),该策略最大化预期折扣累积奖励(或折扣回报):η(π) := E_s_t+1∼T(s_t,a_t), a_t∼π(·|s_t) sum(γtr(s_t, a_t))。通常,离线-到-在线的强化学习算法分为两个不同的阶段:离线阶段,策略基于离线数据 D 进行预训练;在线阶段,策略通过与环境的交互进行进一步的在线微调。我们的方法也遵循同样的机制。
时间差分和多步回报。基于时间差分 (TD) 的强化学习算法,通常使用时间差分 (TD) 损失来学习 Q_θ (s, a),以近似策略从状态 s 和动作 a 开始可以获得的最大预期折扣累积奖励。当 TD 误差最小化时,Q_θ 收敛到策略 π_ψ 的预期折扣值。随着有效范围 H ̃ = 1/(1 − γ) 的增加,学习速度减慢,因为值仅向后传播一步(从 s_t+1 到 s_t)。为了加速长范围值备份,一种常见的策略是采样长度为 n 的轨迹段 (s_t, a_t, s_t+1, · · · , a_t+n−1, s_t+n),并从中构建 n-步回报。Q(s_t, a_t) 的估值允许将值反向传播的时间步数提升 n 倍。该估值器有时被称为未校正 n-步回报估值器 [17, 32],因为当数据收集策略与当前策略 π_ψ 不同时,它会存在偏差。尽管如此,由于 n-步回报实现简单,它在大规模强化学习系统中被广泛采用 [44, 25, 28, 78]。
Q - chunking(QC)
Q-chunking 的两个主要设计原则:(1)在时间扩展的动作空间(动作块空间)上进行 Q-学习,以及(2)在此扩展的动作空间中进行行为约束,然后将 Q-chunking(QC、QC-FQL)实际实现为有效的基于 TD 的离线-到-在线 RL 算法。
在时间扩展动作空间上的 Q-学习
Q- chunking 的首要设计原则是将 Q-学习应用于时间扩展的动作空间。与传统的基于单步时间差分 (TD) 的 Actor-Critic 方法(训练 Q 函数 Q(s_t, a_t) 和策略 π(a_t|s_t))不同,用 h 个连续动作来同时训练 Critic 和 Actor:

在实践中,这涉及基于由随机状态 s_t、状态后的动作序列 a_t 以及未来的状态 h 步 s_t+h 组成的转换批次来更新Critics 和 Actor 。具体来说,用以下 TD 损失来训练 Q_θ:

上述 TD 损失与 n-步回报有着惊人的相似之处,但有一个关键的区别——n-步回报备份中使用的 Q-函数仅包含一个动作(在时间步 t),而这里的 Q-函数则包含整个动作序列。如下标准 1-步 TD、n-步回报和 Q - chunking 的 TD 备份公式,可以更好地解释这种差异的含义:

对于标准的单步时间差分 (TD),每个备份步仅将值(V)反向传播 1 个时间步。n -步返回将值(V)反向传播的速度提高 h 倍,但当 s_t:t+h 和 a_t:t+h 处于离线策略 [17] 时,可能会出现值估计有偏的问题。这是因为来自数据集或重放缓冲区的 n-步奖励 r_t:t+h 的折扣总和,不再是当前策略 π 下预期 n-步奖励的无偏估计。Q - chunking 值备份类似于 n -步回报,其中每一步也将值反向传播 h 个时间步,但不会受到此有偏估计问题的影响。与 n-步回报(将值传播到 1-步 Q-函数)不同,Q- chunking 备份会将值传播回 h-步 Q 函数,该函数采用的操作与获取 n-步奖励 r_t:t+h 完全相同,从而消除有偏差的值估计。因此,Q - chunking 值备份在保持无偏值估计的同时,实现了值传播加速。
时间相干探索的行为约束
Q-chunking 的第二个设计原则通过在 π_ψ 的目标函数中利用行为约束来解决动作不连贯的问题:

直观地讲,对时间扩展动作序列施加行为约束,能够利用离线数据集中时间相干的动作序列。与原始动作空间相比,这在时间扩展动作空间中尤其有利,因为离线数据通常表现出非马尔可夫结构(例如,来自脚本策略 [52]、人类远程操作员 [40] 或子任务中噪声专家策略 [52, 20]),而这些结构无法被马尔可夫行为约束很好地捕捉。时间相干的动作对于在线探索而言非常理想,因为它们类似于时间扩展技能(例如,沿特定方向移动以进行导航,跳跃动作以越过障碍物),这些技能有助于以结构化的方式遍历环境,而不是使用通常会导致数据局部化在初始状态附近的随机动作。对动作分块策略施加行为约束是一种非常简单的方法,可以近似地提取技能,而无需像基于技能的方法那样通常需要使用双层结构的训练策略。实际上,具有此类行为约束的 Q-chunking 可以通过时间连贯的动作与环境进行交互和探索,从而减轻 RL 中的探索挑战。
实际实现
Q-chunking 的一个关键实现挑战,是强制执行一个良好行为约束,以捕捉动作序列级别的非马尔可夫行为。施加良好行为约束的一个先决条件,是策略能够捕捉复杂的行为分布(例如,使用流/扩散策略)。高斯策略是在线强化学习算法中的默认选择,但它并不能满足要求。事实上,如果简单地采用现成的在线算法(例如 RLPD [7])并应用带有行为克隆损失的 Q-chunking,它的表现通常很差(如图所示)。

为了强制执行良好行为约束,首先使用流匹配目标 [38] 来训练一个行为克隆流策略来捕捉行为分布。流策略由状态条件速度场预测模型 f (s, z, u) 参数化,将 f_ξ(·|s) 表示为流策略参数化的动作分布,它是离线数据中真实行为分布的近似值(f_ξ ≈ π_β)。
QC:带有隐式 KL 行为约束的 Q-chunking。通过学习的行为分布来考虑策略中的 KL 约束。由于前面采用 N 个样本中最优的采样来近似策略优化,因此可以完全避免单独参数化策略 π_ψ,而只需从行为策略 f_ξ(·|s_t) 中采样即可。具体而言,用 N 个样本中最优的采样来生成动作,以便 (1) 与环境交互,以及 (2) 按照 Ghasemipour [23]的研究,在 TD 备份中提供动作样本。因此,算法只有一个额外的损失函数:

该方法的一个变型,它利用一种更经济的现成的离线/离线-到-在线强化学习方法 FQL [54]。
QC-FQL:具有 2-Wasserstein 距离行为约束的 Q - chunking。其利用最优传输框架,同样通过学习的行为策略 f_ξ (·|s) 施加 Wasserstein 距离 (W_2) 约束。遵循 FQL [54],用一个噪声条件动作预测模型 μ_ψ(s, z) 来参数化策略 π_ψ,该模型在一次网络前向传播中直接从高斯噪声中输出动作。该噪声条件策略经过训练,旨在最大化 Q - chunking 评判标准 Q_θ(s_t,a_t:t+h),同时通过蒸馏损失正则化,使其接近行为克隆流匹配策略,该蒸馏损失被证明是平方 2-Wasserstein 距离的上限 [54]:

实数值的超参 α 直接控制蒸馏损失的大小。最后,TD 损失与前面相同,唯一的区别在于如何参数化策略:

离线-到-在线强化学习考量。由于方法的两种变型都使用行为约束(QC 使用隐式 KL,QC-FQL 使用显式 W_2),因此也可以直接将它们用于离线强化学习预训练,从而进一步提高样本效率。对于离线和在线训练,使用相同的行为约束强度(例如,QC 用 N,QC-FQL 用 α)。有关在线训练期间 QC 和 QC-FQL 的概述,请参阅下面的算法 1 和算法 2。对于离线训练,用相同的算法,只是删除环境交互部分。

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)