RoboTwin:生成式数字孪生框架合成双臂机器人数据

关键词:#具身智能 #双臂机器人 #benchmark

  • 论文题目:RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins
  • arXiv:2504.13059
  • 单位:HKU & Agilex Robotics & 上海 AI Lab & SZU
  • https://robotwin-platform.github.io/
  • Accepted:CVPR 2025 Highlight
  • 更多论文每日解读关注 v 公众号:https://mp.weixin.qq.com/s/p7udBkQ7EvgLyeNXe9mNrg

更多链接:

  • 穆尧博士对 RoboTwin 的技术分享:https://www.bilibili.com/video/BV1SCBjYwEyY/

论文速读
  • 研究问题:这篇文章旨在解决机器人双臂协调和复杂物体操作中的关键问题,即缺乏多样化和高质量的示范数据以及与现实世界对齐的评估基准。
  • 研究方法:本文提出了 RoboTwin一个基于生成式数字孪生框架的方法,利用三维生成基础模型和 LLM 来生成多样化的专家演示数据集,并提供一个与现实世界对齐的评估平台用于双臂机器人任务。

RoboTwin 从单个二维图像中创建对象的各种数字孪生体,生成逼真且可交互的任务场景。此外,它还引入了一个空间关系感知的代码生成框架,结合物体对象标注和 LLM 来分解任务识别空间约束生成精确的机器人运动代码

如上图所示,为了合成能够更好地用于模型训练的仿真演示数据,RoboTwin 的核心思路是:通过 real2sim 实现数字孪生,让现实和仿真对齐,再通过 sim2real 降低数据的获取成本

RoboTwin 数据合成

整体过程如下:

下面对每个过程进行详细介绍。

1)多样化数字资产的生成

利用 Deemos 的 Rodin 平台,从简单的 2D RGB 图像创建 3D 模型,这在降低了对传感器需求的情况下,实现了逼真的视觉效果并支持物理仿真。

具体的合成思路是:使用 GPT-4V 分析这些图像以生成相应的描述,然后通过 LLM 自主修改这些描述来创建相似但视觉上不同的对象描述。我们使用这些描述与 SDXL-Turbo 来生成一组多样化的 2D 图像,代表同一对象类别的各种外观。接着,一个基于图像的 3D 生成模型处理这组图像,为单一对象类型生成广泛范围的 3D 模型。最终输出将 2D 图像转换为包含详细几何结构、表面法线、线框和纹理的全面3D 模型。

生成出来之后,又采用了两种互补的方法来进行资产质量验证。

::: block-1

SDXL-Turbo,指的是 Stable Diffusion XL Turbo,它是 Stability AI 在 Stable Diffusion XL (SDXL) 基础上推出的一种高速、低延迟的图像生成模型,能够生成更高分辨率、更真实的图像。

:::

2)3D 资产的空间标注框架

为增强生成资产的结构完整性和通用适用性,我们实施了一种系统化的方法来对工具上的关键点和轴进行标注。该方法旨在使数据对 LLM 更易于理解并用于复杂的任务代码生成。

标注过程重点关注两个主要元素:关键点

  • 关键点:代表工具上与功能操作或用户交互点直接相关的特定位置。我们区分这两种类型:(1) 功能点此关键点标识出工具的主要功能部位,例如锤子的打击面。它定义了工具的功能原点或作用点,直接关联到工具在给定任务中的主要用途。(2) 接触点此关键点标识出工具与其用户或其他物体之间的交互区域。它代表握持点或接触区域,作为重要的人机接口点。标注该点有助于理解工具的操作姿势。
  • :坐标轴用于描述任务执行过程中工具的空间方向性,涵盖功能执行的方向和工具接近物体的方式。我们识别出三个主要的坐标轴:(1) 功能轴这个轴代表工具执行其主要功能的方向。它通常与工具的主要操作向量对齐,指导理解工具在任务执行中的预期用途和运动方式。(2) 接近轴接近轴指示了靠近这个工具的方向。这个轴对于理解工具与其操作对象之间的空间关系至关重要。(3) 横向轴这个轴垂直于功能轴和接近轴,构成了工具的三维坐标系统。横向轴有助于定义工具在使用过程中的方向以及可能的旋转运动。

3)专家数据生成

基于以上过程,作者提出了一种用于生成满足空间约束且确保无碰撞执行的机器人行为的数据合成方案,它的运动生成方法分成三个阶段:(1)空间约束推理,分析对象标注以建立几何关系,(2) 基于 LLM 的代码生成,使用 MPlib 轨迹优化库将约束转换为可执行代码,以及 (3) 执行验证以确保任务完成。我们引入了一个自我修正机制,其中执行错误被反馈给语言模型,复杂情况下需要少量人工监督。利用这些集成的能力,我们采用具有预定义 API 的 LLMs 系统地生成各种机器人任务中的专家演示。

详细过程分成如下几个步骤:

  1. 场景初始化
  2. 任务分解:根据人类输入的任务描述,我们使用 LLM 将其分解为子任务。例如,“敲钉子”任务可能被分解为:a)抓取锤子,b)将锤子定位在钉子上方,c)敲击钉子,d)将锤子返回到其原点位置。
  3. 约束推理:对于每个子任务,我们使用 LLM 通过分层约束分析过程系统地推断空间和时间约束。
  4. 机器人行为生成:基于推导出的空间约束,LLM 调用相关 API,为每个子任务生成相应的行为代码。(prompt 可见论文 Appendix D)
  5. 成功性评估
  6. 迭代 refinement:系统从多个来源收集错误数据:运行时错误消息、失败的轨迹规划步骤以及最终对象状态与目标配置之间的偏差。

其中的「约束推理」是指:对于每个子任务,我们使用 LLM 通过分层约束分析过程系统地推断空间和时间约束。这个分析首先识别物体关键点与轴之间的功能关系:

  • 对于抓取子任务,我们推导出末端执行器的姿态与物体的标注接触点和接近轴之间的约束,以确保稳定有效的抓取。
  • 对于操作子任务,我们在工具的功能点与目标物体之间建立几何约束。这些约束包括位置对齐和方向要求。

论文对“约束推理”介绍较少,具体可以参考 Rekep 论文。

基准

基于上文介绍的方法,作者设计了一个名为 RoboTwin 的综合基准来评估双臂机器人,包含 15 个任务,使用 ManiSkill3 物理引擎和开源的 Cobot Magic 平台。该平台配备了四个机器人手臂和四个 Intel RealSense D-435 RGBD 摄像头,提供了高保真的模拟环境。

评估了 3D(DP3,带和不带颜色)和 2D(DP)输入的模仿学习方法在 14 个基准任务上的表现。实验使用了 20、50 和 100 个专家示范数据,成功率的确定基于任务执行完成后的目标姿态约束和整个任务过程中的无碰撞轨迹执行。

实验结果

模仿学习算法的基准测试

论文评比的是不同训练算法的效果(而不是与其他数据合成方法进行的对比)

  • DP3 在仅使用 20 个示范数据时表现出色的少样本学习能力,但在训练数据扩展到 100 个样本时,性能提升有限甚至下降。相比之下,DP 算法在初始数据较少时表现不佳,但在训练样本增加到 100 个时,性能显著提升,尤其在 Dual Bottles Pick(Easy) 任务中,成功率从 1.7% 提高到 85.7%。

sim2real 效果

  • 实验目的:证明 sim2real 效果
  • 实现设计:先用 300 条 sim 数据预训练模型,然后再用 20 条 real 数据微调预训练模型
  • 实验表明,在真实环境中使用本文的 sim 数据微调模型能够提高模型性能

在单臂和双臂操作任务上进行了综合实验,比较了仅使用 20 个真实世界数据集训练的策略与使用 300 个模拟数据集预训练后再使用 20 个真实世界数据集微调的策略。实验结果表明,结合模拟数据的策略在真实世界测试场景中表现出显著优越的性能。特别是,单臂任务的成功率提高了 72%,双臂任务的成功率提高了超过 40%。

总体结论

本文介绍了 RoboTwin,一个结合真实世界和合成数据的双臂机器人操作基准测试框架。通过利用 3D 生成模型和 LLM,RoboTwin 能够从单个 RGB 图像高效生成多样化的训练数据,并自动生成专家示范数据。实验结果表明,使用 RoboTwin 生成的模拟数据训练的策略在较少的真实数据下实现了更高的成功率,有效弥合了模拟与现实的差距。未来的工作将集中在开发更先进的双臂协调算法和扩展框架以处理更复杂的操作任务。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐