[2503.24361] Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation

相关概念:

DexMimicGen - 一个大规模自动化数据生成系统,专为双臂灵巧操作的模仿学习而设计。它通过从少量人类示范中合成轨迹,生成大量训练数据,用于具有灵巧手的人形机器人。

MimicGen - 一个用于可扩展机器人学习的数据生成系统,利用少量人类示范自动合成大规模、丰富的数据集。通过将这些示范适应新的场景配置、对象实例和机器人手臂,MimicGen 能够生成超过 50,000 个示范,涵盖 18 个任务,包括多部件装配和咖啡制作等长时间和高精度任务。

digital cousin data - 数字表亲(Digital Cousins)数据是一种用于训练机器人策略的虚拟资产或场景数据,不同于数字孪生(Digital Twins),它不完全模拟现实世界中的对应物,但仍展示相似的几何和语义特性。这种数据的生成旨在解决数字孪生在生成成本高昂且无法实现跨域泛化的问题。

数据来源:

real data:真实世界数据,包含视觉特征、任务语义和行为;

simulation data:1 已有的大量仿真数据,差异较大;

                          2 已知任务的仿真数据,与真实世界数据更一致;

digital cousin data:1.与真实世界数据一样的机器人和行动空间;

                                 2.与真实世界数据一样的任务目标;

                                 3.同样的物品类别,可能几何和纹理上稍有不同;

                                  4.同样的环境类型。

真实世界数据:

一、panda机械臂+厨房环境

使用了DROID 数据集,实验使用了以下3个真实世界任务,每个任务收集了50个人类演示数据。

CounterToSinkPnP---将物品从台面拿起来放到水槽里

CounterToCabPnP---将物品从台面拿起来放到橱柜里

CloseDoor---关上头顶橱柜的门

二、人形机器人+桌面环境

Fourier GR-1 humanoid robot,mink-based IK controller,使用装在头上的第一人RGB视角,使用以下三个任务每个任务20条人类演示数据。

CupPnP---将杯子从盘子拿起放到桌面
MilkPnP---从桌面拿起一杯牛奶放到架子的第二层
Pouring---拿起一个装乒乓球的杯子,并把乒乓球倒在桌上的碗里
 

先前的未知任务仿真数据:

现有的仿真数据集,即借用别人生成的已有仿真数据

具有相同的机械臂和行动空间,可能跟真实世界数据有比较大的差异。

一、panda机械臂+厨房环境

multi-task RoboCasa dataset,72000个演示数据、24个任务、100个场景,每一个任务有300条由MimicGen通过50条人类演示的数据生成的数据。其中由三个任务跟真实场景任务相似,但是跟真实数据存在显著的差别,包括机械臂初始关节位置、控制参数、物理参数、物品类别、机械臂底座位置。相机对准差异是主要问题,通过重新渲染模拟演示来解决这一差异,使其与真实世界设置的相机姿势大致匹配。

二、GR-1人形机器人+桌面环境

生成了一个先前任务无关的数据集包含RoboCasa的10个任务。每个任务涉及从一个容器抓取一个特定物品到另一个容器,虽然语义上近似真实世界数据的设定,但是先前的任务和数据集是独立开发的并且具有大量的区别比如物品类别、视觉纹理、干扰物品、物理参数。10个任务语义上跟真实世界任务都不是完全一致的,具有不同的原容器和目标容器。使用DexMimicGen为每一个任务生成了1000个演示数据。

已知任务仿真数据集:

一、panda机械臂+厨房环境+PNP任务

真实世界数据集 RoboCasa dataset

仿真数据-调整初始机械臂关节角和位姿与真实数据匹配,抓取的物品10个,其中9个是包含在真实世界数据集里的

每一个任务收集100人类演示样本,并使用MimicGen为每个任务生成10000个演示样本

二、GR-1人形机器人+桌面环境+PNP任务

根据真实世界数据RoboCasa构建digital cousin data,每个任务使用一个固定的物品集,数据表亲中随机选择包含在真实数据集中的物品,以增加仿真数据的多样性。

调整机械臂的初始位姿和相机的初始位姿与真实世界数据保持一致。

收集10个演示数据,并用DexMimicGen生成1000条轨迹

训练和评估:

对比使用真实世界数据、仿真数据联合训练的影响

每个任务使用三种形式的数据:

       真实环境数据---为目标任务收集的真实数据

       先前的仿真数据---不可知任务的仿真数据(借鉴使用别人生成的仿真数据)

       已知任务的数字表情数据---综合仿真数据

使用Diffusion Policy,输入为RGB图像和机器人本体感受数据(关节角、末端位姿、抓夹等),输出为动作序列,并通过多次试验来评估策略记录成功率。

实验:

实验结果:real真实世界数据、DC digital cousin、 prior 别人的仿真数据(任务不可知)

联合训练的关键影响因素:

1.足够数量的仿真数据是联合训练的关键影响因素

2.调整联合训练的比例是必要的

3.相机的一致性对于已知任务的数字表亲数据在联合训练中是关键性的

sim & real 联合训练的一个简单方法:

1.任务和场景的组成

仿真数据(数字表亲)的任务和场景组成与真实数据高度一致。

然而联合训练使用大量多任务的现有的仿真数据(借用别人生成的仿真数据),尽管任务和场景不一样,仍然会很有帮助。

2.物品的组成和初始化

仿真数据中包含多种物品对象和多样化初始位置,可以帮助真实世界策略范化到未见过的场景。

3.已知任务数字表亲与真实世界数据的对齐

仿真任务应该与真实世界数据具有相同的定义和成功标准。

并且具有近似的相机视角。

4.联合训练超参数的设置 

推荐使用足够大量的仿真数据,并且小心的调整仿真和真实数据的比例以优化模型的表现。

总结:

通过实验论证了大规模的仿真数据可以有效补充真实世界数据,尽管有一些明显的不一致,也能使模型的表现显著好于仅只用真实数据训练的结果。

另外还发现仿真数据可提升策略在真实世界数据集未覆盖的场景的范化性能,这凸显了其在开发更稳健、适应性更强的机器人系统方面的潜力。我们的研究结果强调了利用多样化模拟数据提升通用机器人自主性的前景。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐