25年9月来自清华、上海姚期智研究院、北大、上海交大和武汉大学的论文"MotionTrans: Human VR Data Enable Motion-Level Learning for Robotic Manipulation Policies"。

扩展真实机器人数据是模仿学习的关键瓶颈,因此需要使用辅助数据进行策略训练。虽然机器人操作的其他方面(例如图像或语言理解)可以从基于互联网的数据集中学习,但获取运动知识仍然具有挑战性。人类数据拥有丰富的操作行为多样性,为此提供了宝贵的资源。虽然以往的研究表明,使用人类数据可以带来诸多益处,例如提高鲁棒性和训练效率,但它是否能够发挥其最大优势——使机器人策略能够直接学习完成任务所需的新动作——仍不明确。本文通过多任务人机协同训练系统地探索这一潜力。MotionTrans 框架,包含数据采集系统、人类数据转换流水线和加权协同训练策略。通过同时训练 30 个人机任务,将 13 个任务的运动直接从人类数据迁移到可部署的端到端机器人策略。值得注意的是,其中 9 个任务在零样本训练中取得显著的成功率。 MotionTrans 还显著提升预训练微调的性能(成功率提升 40%)。通过消融实验,还确定成功进行运动学习的关键因素:与机器人数据协同训练以及广泛的任务相关运动覆盖范围。如图所示:
请添加图片描述

人类数据[54, 18]是解决机器人数据短缺这个瓶颈问题的一个极具潜力数据源:它数量丰富、易于收集,并且包含多种多样的操作行为[18]。以往的研究利用人类演示提取任务感知表征,例如affordance[3]或关键点流[74],以支持动作迁移。然而,引入中间表征阻碍与主流端到端策略的集成。近年来,随着可穿戴传感技术的进步,研究人员开始探索直接使用人体运动数据(通过VR设备记录手部姿态)进行机器人策略的协同训练或预训练[25, 54, 70, 44, 6]。这些方法在视觉基础[44]、鲁棒性[70]和训练效率[6]方面展现出优势。然而,它能否充分发挥其最大优势——使机器人策略能够直接获取完成任务所需的新动作——仍有待观察。

早期研究利用任务-觉察表征进行人机知识迁移。自监督学习已被用于隐式任务感知表征的学习[46, 24, 45, 71, 9],而诸如affordance[3, 28, 57]、物体姿态[19]、视频[5, 51]和运动流[74, 66, 68, 55]等表征则支持运动感知表征的学习。一些方法使用手腕轨迹作为提示,实现一次性的人-机技能迁移[27, 78, 79, 60, 50]。EgoZero[39]利用智能眼镜预测手腕姿态,但其策略观察依赖于基于关键点的表征[64]。这些方法中使用中间表征限制它们与主流端到端视觉运动策略学习[12, 7]的集成,从而限制它们未来的应用范围。

人体运动数据可以通过手持式基于SLAM的设备[13, 69]采集,但通常仅限于腕部摄像头传感[61]。可穿戴传感技术的最新进展[15, 10, 54]使得通过VR设备[18]轻松采集人体姿态数据(包括手部关键点、腕部姿态信息等)成为可能。这些数据为预测提供动作标签,支持端到端策略学习[30]。一些研究采用人体和机器人数据联合训练[25, 54, 47, 29, 61, 40],而另一些研究则先用人体数据进行预训练,然后用机器人演示进行微调[70, 44, 6]。这些工作表明,策略在视觉定位[44]、鲁棒性[54, 70]和训练效率[6, 25]方面均有所改进。然而,能否实现人体到机器人的运动直接迁移仍不清楚[39]。

本文提出的MotionTrans框架(如图所示),其核心思想是首先将人类数据转换为机器人数据格式,然后在机器人观测-动作空间中联合学习人类和机器人数据。通过在机器人空间中训练策略,可以直接将策略部署到真实世界的机器人上,使其能够根据人类数据执行任务,即实现显式的人机运动迁移。
请添加图片描述

问题定义

目标是实现人-机之间的显式运动迁移。考虑到人与机器人之间存在的具身认知差距[25],在一个多任务人机协同训练框架下探索这个问题,其中某些任务的机器人数据可用于帮助人类数据中的运动适应机器人。

人-机数据采集系统

为了进行人机协同训练,需要采集机器人和人的数据[25]。对于人的数据采集,用便携式商用VR设备,可以随时随地采集数据。这极大地提高采集各种动作和更广泛任务数据的效率[18]。对于机器人的数据采集,用远程操作来记录演示。上图左上角展示了两种数据采集系统。
使用便携式VR设备进行人的数据采集。扩展ARCap[10]来构建人的数据采集系统(如图(a)所示),该系统集成一个便携式VR头显,用于记录手部关键点位置𝐾_t、手腕姿态𝑊_t和相机姿态,以及一个RGB相机用于采集图像流𝐼_t。对于手部姿态记录,目标是在RGB相机坐标系(𝐼)中捕获手部关键点位置𝐾和手腕姿态𝑊。然而,这些信息由VR设备记录,并置于VR坐标空间中。因此,采用一种自主设计的标定方法,将所有手部信息从VR坐标空间转换到RGB相机。数据采集过程中,指导采集者尽量减少头部运动,以模拟真实机器人硬件的静态相机设置,但允许存在轻微的头部运动[54]。为了确保数据质量,在用户的VR视图中提供实时反馈,以指导采集者进行数据采集(如图(b)所示)。反馈信息包括RGB相机的拍摄范围和手部位置:

• RGB相机拍摄的图像范围用于指导用户确保其双手始终处于RGB相机的视野范围内[10]。
• 手部位置信息实时告知采集者VR记录的手部姿态是否与其手部姿态完全一致,从而提供有关记录延迟和精度的信息。
请添加图片描述
还提供手势界面,允许采集者在认为数据质量不符合上述原则和反馈要求时,随时放弃当前记录的数据。机器人数据采集与远程操控。由于目标是实现人-机直接运动迁移,因此机器人硬件平台需要与人臂和手的功能相匹配。为此,选择单机械臂和灵巧机械手的组合作为硬件平台(如图 ©所示)。基于 OpenTelevision [11] 开发远程操作系统,该系统通过 VR 设备实时捕捉人手腕和手部的姿态,并驱动机器人复现这些动作。基于上述采集系统,采集用于多任务协同训练的 MotionTrans 人机数据集(如图所示)。
请添加图片描述

人体数据到机器人格式的转换

如前所述,从VR设备采集的原始人体数据格式与机器人数据不同,这使得它无法直接用于与机器人策略进行协同训练[70, 44]。为了解决这个问题,其提出将人体数据直接转换为机器人的观察-动作空间[11, 43]。转换后,人体数据可以作为一种“补充机器人数据”,用于训练任何主流的端到端机器人策略。

观察-动作空间的转换。机器人的观察-动作空间包含三个组成部分:图像观察𝐼_t、本体感觉状态𝑃_t和动作𝐴_t。𝑃_t和𝐴_t均由腕部姿态𝑊_t和手部关节状态𝐻_t堆叠生成。
• 图像观测 𝐼_𝑡:如上图所示,对人和机器人数据均采用以自我为中心的视角。使用相似的图像视角可以使场景中物体的空间关系相似,从而实现相似的运动来完成相似的任务。
• 腕部姿态 𝑊_t:对人和机器人数据均采用以自我为中心的相机坐标系(相机捕获 𝐼_t)。这可以在统一的坐标系中测量腕部姿态,确保人和机器人数据的空间定义一致。
• 手部关节状态 𝐻_𝑡:采用 dex-retargeting 库 [53](一种基于优化的逆运动学求解器)将人手关键点 𝐾_t 映射到机器人手部关节状态 𝐻_𝑡。

上述设计将人体数据转换为与机器人数据相同的格式,能够直接在真实机器人上重放人体数据。转换后的人体数据的可重放性证明处理后的数据与机器人数据的一致性。通过在真实机器人平台上重放人体轨迹,得出以下关键观察结果:(O1)人体操作速度远快于机器人,这会影响安全性和运动规划的稳定性;(O2)人体手部位置分布与机器人舒适工作空间(均在以自我为中心的相机坐标系中定义)之间存在差异。
为了缓解这些问题:
请添加图片描述

(O1)通过姿态和手部关节状态插值将人体数据的速度降低2.25倍。更高级的技术,例如自适应速度下采样策略[58],留待未来探索。
(O2.1) 利用基于动作块的相对姿态[12, 76]作为腕部动作表示,以减少人机数据分布不匹配的情况。例如,即使机器人和人的手部位置在世界空间中不同,只要它们以相同的速度向前移动,它们的相对姿态仍然相同。
(O2.2) 鼓励采集者在轨迹记录之间切换视角。这增强相机视角与目标操作对象之间位置关系的多样性,从而促使策略适应更广泛的手部姿态分布,进而为机器人提供更大的工作空间。

上述方法和原理有助于缩小人-机数据之间的差距,从而提高人-机运动迁移的有效性。先前的研究[29, 30, 31]提出将机器人渲染到人类视频中,以进一步缩小两个域之间的视觉差距。如图所示,复现这种渲染方法,但并未观察到比直接在人类视频上训练有显著改进。因此,该框架默认不采用这种渲染技术。

加权多任务人-机协同训练

通过统一观察空间和动作空间,能够在共享的端到端机器人策略下联合训练人类和机器人数据。

端到端多任务策略架构。探索两种流行的端到端策略架构:(1)扩散策略(DP)[12]:与原始的单任务设置不同,将DP扩展到多任务训练。每个任务都与一个可学习的嵌入相关联,作为独特的任务条件。视觉编码器被DINOv2 [48] 取代,以增强视觉感知能力 [32]。(2)视觉-语言-动作模型(𝜋0-VLA):采用[7]中的网络结构,这是一种集成大规模预训练视觉-语言模型[59]的策略架构,用于多模态感知和指令跟踪。由于𝜋0-VLA支持语言输入,直接使用指令来分配任务。对于𝜋0-VLA,在训练之前加载𝜋0-droid预训练的检查点[52]。

统一动作归一化。为了提高训练稳定性,在训练前对本体感觉状态和动作都应用 Z 分数归一化 [12, 13]。以往的人-机协同训练工作 [25, 61] 通常对人和机器人数据分别进行独立归一化,认为这样可以减少两者之间的动作差异。然而,在以运动级评估为目标,直接将人类任务部署到真实机器人上的场景中,这种方法会在训练(人类归一化)和推理(机器人归一化)之间引入不匹配,最终导致性能下降。因此,在框架内对人和机器人数据采用统一的动作归一化。

加权人机协同训练。最后一步是设计一种策略,利用处理后的人机数据集训练多任务策略。考虑到人和机器人数据之间可能存在不平衡 [61, 54],采用类似于 [65] 的加权协同训练策略。在组合数据集 𝐷 =D_robot U D_human 上,训练目标定义为:L_D = 𝛼L_D_robot + (1-𝛼) L_D_human,其中 L 表示模仿学习的损失函数 [12, 7]。权重确保人类数据和机器人数据的权重之和相等,从而平衡这两个数据源。之前也尝试过域自适应训练技术,例如域混淆 [63, 62],以促进知识从人类领域迁移到机器人领域,但发现它对运动迁移没有帮助,并且总是导致训练不稳定。因此,在框架中选择最简单的加权协同训练策略。


实验装置

硬件平台。机器人硬件采用 Franka Emika 机械臂 [17] 和 6DoF 仿生灵巧(右)手 [11]。该组合模拟人右手和手臂的功能。机器人安装在可移动的升降台上,以便于在不同位置采集数据。一台 ZED2 相机固定在升降台上,以自我中心视角提供图像观测流。记录的图像首先被裁剪至 640×480 分辨率,然后调整大小至 224×224。用于远程操作的 VR 设备是 Meta Quest 3 [11]。机器人底座和机器人感知相机之间的标定通过 DROID 平台代码库 [26] 实现。

对于人体数据采集,用 MetaQuest 3 作为 VR 头显。为了确保图像观察的一致性,还使用 ZED2 相机记录 RGB 图像,并进行图像裁剪和缩放,其设置与机器人硬件平台 [25] 中的设置相同。相机通过 3D 打印的安装支架 [10] 固定在 VR 头显上。相机连接到笔记本电脑用于数据存储。VR 头显和笔记本电脑之间的通信通过局域网进行。

MotionTrans 多任务数据集。该数据集用于训练策略。该数据集包含 3213 个演示,涵盖 10 多个场景,包括 15 项人类任务和 15 项机器人任务。下图展示所有任务的操作目标。每项人机任务的演示次数在 40 到 150 次之间。
请添加图片描述

下表展示与以往人机协同训练数据集的比较:
请添加图片描述

就任务而言,人类和机器人的任务集互不重叠。就动作而言,人类和机器人数据中相似的任务(例如,抓取和放置)具有相似的运动模式,但仍存在显著差异。此外,某些动作仅出现在人类数据集中,而未出现在机器人数据集中,例如拔插头、关闭、举起等。总体而言,该数据集涵盖广泛的动作和技能,包括拾取和放置、倾倒、擦拭、推、按、打开等。这种广泛的覆盖范围对于成功的动作迁移至关重要。为简便起见,在正文中将拾取放置任务命名为“拾取物体-放置目标”,其他任务则采用“动词+名词”的命名方式。对于包含多个步骤的任务,采用“步骤1+步骤2”的命名方式。

为了增强策略的视觉鲁棒性[75],例如对不同背景和光照条件的鲁棒性,在各种场景下收集这些数据[32]。每个人类任务至少在4个不同的场景中采集。对于机器人任务,大约一半的数据是在“绿色桌面场景”(“面包垫”和“拔掉充电器”任务示例的场景)中采集的,其中约80%的数据在桌面上放置随机干扰物。该场景也被指定为评估的默认场景。另一半机器人任务至少在4个场景中采集。为了丰富VLA训练的语言指令,利用GPT-4o[20]对数据集中的任务描述进行释义和扩展。

评估任务和指标。由于目标是了解人-机运动迁移的有效性,因此专注于评估机器人策略在人类任务上的表现。在人类数据集的15个任务中,有两个任务(“折叠毛巾”和“倒牛奶”)由于机器人手的硬件设计限制(即使使用远程操作也无法完成)而无法部署到机器人上。因此,本研究重点讨论其余13个任务。

用成功率(SR)来评估策略在完成特定任务时的表现。然而,仅凭这一指标不足以反映运动迁移的有效性,因为它忽略了任务执行过程中有意义的运动。例如,一个能够伸手够到目标物体的策略应该比一个完全没有移动的策略评分更高。为了弥补这一不足,定义一个运动进度评分(Score)来量化策略在完成任务时的运动质量。为清晰起见,在正文中将分数归一化到 [0,1] 范围内。对于每个任务,进行 10 次测试,并计算两个指标的平均结果。每次测试中,都会改变物体的排列方式,以涵盖 10 次测试中任务的各种配置。

零样本实验

零样本实验的目标是验证直接人机运动迁移的有效性。用 MotionTrans 数据集训练策略。随后,将策略直接部署到真实的机器人硬件上,并评估其在人类数据任务中的表现。称之为零样本设置,因为策略无需收集任何机器人数据即可学习人类的运动。

实验详情。训练两种端到端策略:扩散策略 (DP) 和 𝜋0-VLA。对于 DP,训练 300 个 epoch,学习率为 5×10⁻⁴,批大小为 1024。对于 𝜋0-VLA,训练 160,000 步,学习率为 2.5 × 10⁻⁵,批大小为 192。两个模型均使用 AdamW 优化器 [42] 进行训练。训练分别耗时约 1.5 天和 2.5 天。本文重点在于实现主流端到端策略的人机迁移。因此,不将本文方法与基于零样本中间表示的方法(例如 Vid2Robot [22]、General-Flow [74]、EgoZero [39]、ZeroMimic [57] 等)进行比较,因为这些方法与此类策略不兼容。相反,分析重点在于端到端策略架构(DP 与 π-VLA)之间的差异。

少样本实验

研究人机协同训练中的运动迁移是否也能在少样本微调场景下提升性能。在这种场景下,可用于策略微调的机器人执行人类任务的演示数据有限。

实验详情。考虑到 DP 和 𝜋0 -VLA 在零样本实验中表现出相似的平均性能,重点关注 DP 架构,以提高计算资源效率。此外,还收集默认“绿桌”评估场景中所有人类任务的 20 个演示。随后,基于先前在 motiontrans 数据集上训练的检查点,执行 5 样本和 20 样本的多任务微调 [6]。用 AdamW 优化器 [42],以 1×10⁻⁴ 的学习率和 256 的批大小对 DP 进行 200 个 epoch 的微调。5 样本设置下的微调过程耗时 1 小时,20 样本设置下的微调过程耗时 4 小时。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐