用动作分块的强化学习

25年7月来自 UC Berkeley 和 PI 公司的论文“Reinforcement Learning with Action Chunking”。Q-chunking （QC）是一种简单而有效的方法，用于改进强化学习 (RL) 算法，使其能够执行长周期、稀疏奖励任务。该方法专为离线-到-在线的强化学习 (RL) 设置而设计，其目标是利用离线的先验数据集来最大化在线学习的样本效率。在这种设置下

硅谷秋水

1205人浏览 · 2025-07-24 17:48:03

硅谷秋水 · 2025-07-24 17:48:03 发布

25年7月来自 UC Berkeley 和 PI 公司的论文“Reinforcement Learning with Action Chunking”。

Q-chunking （QC）是一种简单而有效的方法，用于改进强化学习 (RL) 算法，使其能够执行长周期、稀疏奖励任务。该方法专为离线-到-在线的强化学习 (RL) 设置而设计，其目标是利用离线的先验数据集来最大化在线学习的样本效率。在这种设置下，有效的探索和高效的样本学习仍然是核心挑战，因为如何利用离线数据来获得良好的探索性策略尚不明确。其关键见解是，动作分块（action chunking）是一种在模仿学习中流行的技术，它预测的是未来动作的序列，而不是每个时间步的单个动作。它可以应用于基于时间差分 (TD) 的强化学习 (RL) 方法，以减轻探索挑战。Q-chunking 在“分块”的动作空间中直接运行强化学习 (RL) ，使智体能够 (1) 利用离线数据中时间一致的行为进行更有效的在线探索，以及 (2) 使用无偏的 n-步备份进行更稳定、更高效的时间差分（TD）学习。实验结果表明，Q-chunking 表现出强大的离线性能和在线采样效率，在一系列长期、稀疏奖励操作任务中优于之前最好的离线-到-在线方法。

如图所示：Q-chunking （QC）使用动作分块来实现快速值（V）-备份和具有时间连贯动作的有效探索。

请添加图片描述

强化学习 (RL) 有望仅基于奖励函数解决任何给定任务。然而，这种简单直接的 RL 问题表述通常并不切实际：在复杂环境中，完全从头开始探索以学习有效的策略可能成本高昂，因为它要求智体在学习好的策略之前，通过随机机会成功解决任务。事实上，即使是人类和动物也很少完全从头开始解决新任务，而是利用过去经验中的先验知识和技能。受此启发，近期许多研究尝试将先前的离线数据融入在线 RL 探索中 [27, 36, 77]。但这带来了一系列新的挑战：离线数据的分布可能与智体在线应遵循的策略不匹配，从而引入分布漂移，而且如何利用离线数据来获得良好的在线探索性策略也并不明确。

在模仿学习 (IL) 这一相关领域，近年来一种广泛使用的方法是采用动作分块。这种方法不是训练策略根据先前数据的状态观察来预测单个动作，而是训练策略预测一小段未来动作（“动作组块”）[82, 11]。虽然对于 IL 中动作分块有效性的完整解释仍是一个悬而未决的问题，但其有效性至少可以部分归因于更好地处理离线数据中的非马尔可夫行为，本质上提供了一种更强大的工具来建模可能出现在（例如）人类提供的演示或不同行为混合中的各种复杂分布 [82]。动作分块在强化学习中尚未得到广泛应用，可能是因为完全可观察的马尔可夫决策过程 (MDP) 中的最优策略是马尔可夫的 [68]，因此分块似乎没有必要。

尽管可能期望最终得到最优的马尔可夫策略，但探索问题可以通过非马尔可夫和时间扩展技能更好地解决，而动作分块提供了一种非常简单便捷的方法来实现这一点。此外，动作分块提供一种更好地利用离线数据的方法（可以更好地处理数据中的非马尔可夫行为），甚至通过启用无偏 n-步更新（其中 n 与分块长度匹配），提高了基于时间差 (TD) 的强化学习稳定性和效率。因此，结合离线数据的预训练，动作分块提供一种令人信服且非常简单的方法来缓解强化学习中的探索挑战。

带有动作分块的 Q-学习（或简称 Q-chunking），这是一种在离线-到-在线强化学习环境中改进通用基于时间差（TD） Actor-Critic （AC）强化学习算法的方法。其核心思想是在动作序列层面运行强化学习——(1) 策略预测接下来 h 步的动作序列，并以开环方式逐一执行；(2) Critics 会考虑当前状态和一系列动作，并估算执行整个序列而非单个动作的值。在这个扩展的动作空间上运行强化学习有双重好处：(1) 可以通过将策略正则化为一些表现出时间一致性的先验行为数据，来优化策略以生成时间一致性的动作；(2) 使用一个标准 TD-备份损失训练的 Critics 可以有效地执行 n -步备份，并且不会出现离线-策略偏差（这种偏差通常出现在简单的 n 步-回归方法中），因为 Critics 会考虑完整的动作序列。

背景知识

离线-到-在线 RL。本文考虑一个无限视野、完全可观测的马尔可夫决策过程 (MDP)，(S, A, ρ, T, r, γ)，其中 S 是状态空间，A 是动作空间，T(s′|s,a) : S × A → ∆(S) 是转换核，r(s, a) : S × A → R 是奖励函数，ρ : ∆(S) 是初始状态分布，γ ∈ [0, 1) 是折扣因子。还假设存在一个先前的离线数据集 D，它由来自 M 的转换展开 {(s, a, s′, r)} 所组成。离线-到-在线 RL 的目标是找到一个策略 π(a|s) : S → ∆(A)，该策略最大化预期折扣累积奖励（或折扣回报）：η(π) := E_s_t+1∼T(s_t,a_t), a_t∼π(·|s_t) sum(γ^tr（s_t, a_t))。通常，离线-到-在线的强化学习算法分为两个不同的阶段：离线阶段，策略基于离线数据 D 进行预训练；在线阶段，策略通过与环境的交互进行进一步的在线微调。我们的方法也遵循同样的机制。

时间差分和多步回报。基于时间差分 (TD) 的强化学习算法，通常使用时间差分 (TD) 损失来学习 Q_θ (s, a)，以近似策略从状态 s 和动作 a 开始可以获得的最大预期折扣累积奖励。当 TD 误差最小化时，Q_θ 收敛到策略 π_ψ 的预期折扣值。随着有效范围 H ̃ = 1/(1 − γ) 的增加，学习速度减慢，因为值仅向后传播一步（从 s_t+1 到 s_t）。为了加速长范围值备份，一种常见的策略是采样长度为 n 的轨迹段 (s_t, a_t, s_t+1, · · · , a_t+n−1, s_t+n)，并从中构建 n-步回报。Q(s_t, a_t) 的估值允许将值反向传播的时间步数提升 n 倍。该估值器有时被称为未校正 n-步回报估值器 [17, 32]，因为当数据收集策略与当前策略 π_ψ 不同时，它会存在偏差。尽管如此，由于 n-步回报实现简单，它在大规模强化学习系统中被广泛采用 [44, 25, 28, 78]。

Q - chunking（QC）

Q-chunking 的两个主要设计原则：（1）在时间扩展的动作空间（动作块空间）上进行 Q-学习，以及（2）在此扩展的动作空间中进行行为约束，然后将 Q-chunking（QC、QC-FQL）实际实现为有效的基于 TD 的离线-到-在线 RL 算法。

在时间扩展动作空间上的 Q-学习

Q- chunking 的首要设计原则是将 Q-学习应用于时间扩展的动作空间。与传统的基于单步时间差分 (TD) 的 Actor-Critic 方法（训练 Q 函数 Q(s_t, a_t) 和策略 π(a_t|s_t)）不同，用 h 个连续动作来同时训练 Critic 和 Actor：

请添加图片描述

在实践中，这涉及基于由随机状态 s_t、状态后的动作序列 a_t 以及未来的状态 h 步 s_t+h 组成的转换批次来更新Critics 和 Actor 。具体来说，用以下 TD 损失来训练 Q_θ：

请添加图片描述

上述 TD 损失与 n-步回报有着惊人的相似之处，但有一个关键的区别——n-步回报备份中使用的 Q-函数仅包含一个动作（在时间步 t），而这里的 Q-函数则包含整个动作序列。如下标准 1-步 TD、n-步回报和 Q - chunking 的 TD 备份公式，可以更好地解释这种差异的含义：

请添加图片描述

对于标准的单步时间差分 (TD)，每个备份步仅将值（V）反向传播 1 个时间步。n -步返回将值（V）反向传播的速度提高 h 倍，但当 s_t:t+h 和 a_t:t+h 处于离线策略 [17] 时，可能会出现值估计有偏的问题。这是因为来自数据集或重放缓冲区的 n-步奖励 r_t:t+h 的折扣总和，不再是当前策略 π 下预期 n-步奖励的无偏估计。Q - chunking 值备份类似于 n -步回报，其中每一步也将值反向传播 h 个时间步，但不会受到此有偏估计问题的影响。与 n-步回报（将值传播到 1-步 Q-函数）不同，Q- chunking 备份会将值传播回 h-步 Q 函数，该函数采用的操作与获取 n-步奖励 r_t:t+h 完全相同，从而消除有偏差的值估计。因此，Q - chunking 值备份在保持无偏值估计的同时，实现了值传播加速。

时间相干探索的行为约束

Q-chunking 的第二个设计原则通过在 π_ψ 的目标函数中利用行为约束来解决动作不连贯的问题：

请添加图片描述

直观地讲，对时间扩展动作序列施加行为约束，能够利用离线数据集中时间相干的动作序列。与原始动作空间相比，这在时间扩展动作空间中尤其有利，因为离线数据通常表现出非马尔可夫结构（例如，来自脚本策略 [52]、人类远程操作员 [40] 或子任务中噪声专家策略 [52, 20]），而这些结构无法被马尔可夫行为约束很好地捕捉。时间相干的动作对于在线探索而言非常理想，因为它们类似于时间扩展技能（例如，沿特定方向移动以进行导航，跳跃动作以越过障碍物），这些技能有助于以结构化的方式遍历环境，而不是使用通常会导致数据局部化在初始状态附近的随机动作。对动作分块策略施加行为约束是一种非常简单的方法，可以近似地提取技能，而无需像基于技能的方法那样通常需要使用双层结构的训练策略。实际上，具有此类行为约束的 Q-chunking 可以通过时间连贯的动作与环境进行交互和探索，从而减轻 RL 中的探索挑战。

实际实现

Q-chunking 的一个关键实现挑战，是强制执行一个良好行为约束，以捕捉动作序列级别的非马尔可夫行为。施加良好行为约束的一个先决条件，是策略能够捕捉复杂的行为分布（例如，使用流/扩散策略）。高斯策略是在线强化学习算法中的默认选择，但它并不能满足要求。事实上，如果简单地采用现成的在线算法（例如 RLPD [7]）并应用带有行为克隆损失的 Q-chunking，它的表现通常很差（如图所示）。

请添加图片描述

为了强制执行良好行为约束，首先使用流匹配目标 [38] 来训练一个行为克隆流策略来捕捉行为分布。流策略由状态条件速度场预测模型 f (s, z, u) 参数化，将 f_ξ(·|s) 表示为流策略参数化的动作分布，它是离线数据中真实行为分布的近似值（f_ξ ≈ π_β）。

QC：带有隐式 KL 行为约束的 Q-chunking。通过学习的行为分布来考虑策略中的 KL 约束。由于前面采用 N 个样本中最优的采样来近似策略优化，因此可以完全避免单独参数化策略 π_ψ，而只需从行为策略 f_ξ(·|s_t) 中采样即可。具体而言，用 N 个样本中最优的采样来生成动作，以便 (1) 与环境交互，以及 (2) 按照 Ghasemipour [23]的研究，在 TD 备份中提供动作样本。因此，算法只有一个额外的损失函数：

请添加图片描述

该方法的一个变型，它利用一种更经济的现成的离线/离线-到-在线强化学习方法 FQL [54]。

QC-FQL：具有 2-Wasserstein 距离行为约束的 Q - chunking。其利用最优传输框架，同样通过学习的行为策略 f_ξ (·|s) 施加 Wasserstein 距离 (W_2) 约束。遵循 FQL [54]，用一个噪声条件动作预测模型 μ_ψ(s, z) 来参数化策略 π_ψ，该模型在一次网络前向传播中直接从高斯噪声中输出动作。该噪声条件策略经过训练，旨在最大化 Q - chunking 评判标准 Q_θ(s_t,a_t:t+h)，同时通过蒸馏损失正则化，使其接近行为克隆流匹配策略，该蒸馏损失被证明是平方 2-Wasserstein 距离的上限 [54]：

请添加图片描述

实数值的超参 α 直接控制蒸馏损失的大小。最后，TD 损失与前面相同，唯一的区别在于如何参数化策略：

请添加图片描述

离线-到-在线强化学习考量。由于方法的两种变型都使用行为约束（QC 使用隐式 KL，QC-FQL 使用显式 W_2），因此也可以直接将它们用于离线强化学习预训练，从而进一步提高样本效率。对于离线和在线训练，使用相同的行为约束强度（例如，QC 用 N，QC-FQL 用 α）。有关在线训练期间 QC 和 QC-FQL 的概述，请参阅下面的算法 1 和算法 2。对于离线训练，用相同的算法，只是删除环境交互部分。

请添加图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla