基础模型能为机器人学习操纵带来什么:综述
24年12月来自北京 Samsung R&D 中心、北邮、清华和汉堡大学的论文“What Foundation Models can Bring for Robot Learning in Manipulation : A Survey”。实现通用机器人(universal robot)是研究人员的最终目标。然而,实现这一目标的一个关键障碍在于机器人根据不同的任务在非结构化环境中操纵目标的能力。基
24年12月来自北京 Samsung R&D 中心、北邮、清华和汉堡大学的论文“What Foundation Models can Bring for Robot Learning in Manipulation : A Survey”。
实现通用机器人(universal robot)是研究人员的最终目标。然而,实现这一目标的一个关键障碍在于机器人根据不同的任务在非结构化环境中操纵目标的能力。基于学习的方法被认为是解决泛化问题的有效方法。基础模型在计算机视觉和自然语言领域的出色表现表明,将基础模型嵌入到操纵任务中是实现一般操纵能力的可行途径。然而,实现一般操纵能力需要一个类似于自动驾驶的总体框架。这个框架应该包含多个功能模块,不同的基础模型在促进一般操作能力方面发挥着不同的作用。本综述重点关注基础模型对机器人学习操纵的贡献。提出一个全面的框架,并详细说明基础模型如何应对框架每个模块中的挑战。此外,研究当前的方法,概述挑战,提出未来的研究方向,并确定将基础模型集成到这个领域的潜在风险。
研究人员的目标是创造出能够无缝融入人类生活以提高生产力的通用机器人,就像电影《I,Robot》中描绘的那样。然而,实现这一目标的一个关键障碍在于机器人根据不同任务在非结构化环境中操纵目标的能力。目前有大量文献可用于提高机器人的一般操纵能力,这些方法大致可分为基于模型和基于学习的方法(Zarrin(2023))。现实世界对于通用机器人来说太多样化了,它们必须适应非结构化环境和任意目标才能有效地操纵。因此,基于学习的方法对于操纵任务至关重要(Kleeberger(2020))。
基于学习的方法中的主要方法是深度学习、强化学习和模仿学习。基于学习的方法包括通过标记数据集(如人类演示)获取特定的操纵技能,获取有助于高级规划的操纵任务抽象表征,通过交互探索目标的功能并涵盖其间的各种目标(Kroemer(2021))。然而,挑战依然存在,包括 1)与人类的不自然交互;2)高成本的数据收集;3)有限的感知能力;4)非智能的技能层次结构;5)不准确的前置条件和后置条件及事后校正;6)不可靠的技能学习;7)环境转换不佳(Hu(2023b))。
基础模型主要在庞大的互联网规模数据集上进行预训练,使其能够针对各种任务进行微调。它们在视觉和语言处理方面的重大进步有助于缓解上述挑战。基于 Firoozi(2023)并考虑到模型的不同输入模态和功能,将基础模型分为以下六种类型:
- 大语言模型(LLM),如 BERT(Devlin(2018))、GPT-3(Brown(2020))展示生成连贯思维链的能力。
- 视觉基础模型(VFM),如 SAM(Kir-illov(2023))展示对开放集目标的强大分割能力。
- 视觉生成模型(VGM),如 DALL-E(Ramesh(2021))、Zero-1-to-3(Liu(2023d))和 Sora(Brooks (2024)),展示了通过文本或图像生成 2D 图像、视频或 3D 网格的能力。
- 视觉语言模型 (VLM),如 GPT-4V(Achiam(2023))、CLIP(Radford(2021))展示对视觉和语言的强大理解,例如开放集图像分类和视觉问答。
- 大型多模态模型 (LMM) 将其范围扩展到视觉和语言之外,以创建包含其他模态的新型基础模型类别,例如 ULIP(Xue(2023a))将点云表示与预对齐的图像文本特征空间对齐。VLM 是一种 LMM(Firoozi(2023))。本文 LMM 指的是包含图像、语言和更多模态的 LMM。
- 机器人专用基础模型 (RFM),如 RT-X(Padalkar (2023a))。互联网规模的数据集(例如图像和文本数据)适用于预训练视觉和语言模型,但缺乏任务级操纵数据。因此,研究人员旨在通过收集任务级操纵数据集来训练端到端 RFM,以实现从观察到动作的映射。
如图所示基础模型在机器人学习操纵的应用分类:

在过去十年中,机器人操控研究取得了显著进展,重点是利用日益普及的经济高效机器人手臂和夹持器,使机器人能够直接与环境互动,从而实现目标。由于现实世界变化多端,机器人无法指望自己拥有非结构化环境、其中的目标或操控所需技能的精确模型(Kroemer(2021))等。
早期阶段,机器人操控被定义为通过深度学习、强化学习或模仿学习等方式学习策略 Π。该策略控制机器人的关节运动,并根据对环境和机器人状态 S 的观察执行任务,映射到动作 α。例如 Rlafford(Geng(2023b))和 Graspnet(Fang(2020b))以点云为输入,输出目标姿势。该过程由技能执行模块表征,如图所示。

从中期来看,机器人技术中的许多任务都需要一系列正确的操作,这些操作通常是长期任务。例如,用机器人泡一杯茶涉及多个连续步骤,如烧水、加茶包、倒热水等。学习规划长期任务是 episodic 学习问题的核心挑战(Wang 等人(2020))。分解任务有几个优点。通过将单个技能分解为短期任务,可以使学习单个技能更有效率,从而有助于探索。在多种环境中重复使用技能可以加快学习速度,因为无需每次都从头开始重新学习元素。研究人员训练层次模型将任务分解为一系列子目标(Ahn(2022)),并观察前置条件和后置条件,以确保满足每个子目标的先决条件和结果(Cui(2022))。这三个过程在图中表示为技能层次模块 H、前置条件检测模块 P 和后置条件检测模块 P。然而,仅使用后置条件检测来检测任务成功是不够的。它还应该找出任务失败的原因,以帮助机器人自我纠正并提高成功率。因此,添加一个事后校正模块,如上图所示。
最近,研究人员意识到训练策略需要机器人与环境之间的真实世界交互,这不可避免地增加了不可预见危险情况发生的概率。因此,研究人员的目标是训练环境的过渡模型 T。一旦模型拟合好,机器人就可以基于它生成样本,从而显著减少机器人与环境直接交互的频率(Liu et al. (2024e))。
上述模块是从机器人学习操作的发展中总结出来的。然而,它们对于一个通用操作的综合框架来说仍然不够。最终的通用操控框架,应该能够与人类或其他智能体交互,控制全身在开放世界场景中操控任意目标,实现多样化的操控任务。在与人类或其他智体交互以了解任务目标时,传递的指令有时可能不明确,例如当环境中有两个杯子时,需要确定要往哪个杯子里倒水。因此,在上图中增加了交互模块 I,以了解精确的任务目标。
上述模块都需要数据集进行学习。技能层次结构模块 H 和前后置条件检测模块 P 的数据收集过程与 CV 和 NLP 领域的数据收集过程类似。与 CV 和 NLP 领域的数据收集相比,收集操控任务的数据集需要机器人的轨迹来训练策略。因此,在上图中包含操控数据生成模块。
根据机器人通用操控学习的发展历史和定义,组织该框架,如上图的标题中,概述整个框架的流程。
- 前置条件检测。该模块将机器人观察的原始信息作为输入。它输出关于环境中的目标及其可供性的信息。感知信息有助于确保满足要求,并有助于根据目标 affordance 选择执行方法。例如,当将茶包放入茶杯中时,感知信息可以帮助确定是否有茶包和茶杯,并根据它们的 affordance 选择拾取放置或推动,例如,茶包是球形的,推动时具有滚动的 affordance。
- 人机交互。人机交互模块 I 的输入包括来自协作智体或人类的指令或答案,以及来自先决条件检测模块 P 的感知信息。输出包括一个问题,如果指令或答案有歧义,并为技能层次模块 H 提供精确的指令。该模块的主要功能是了解确切的任务目标。
- 技能层次。该模块将来自先决条件检测模块 P 环境中目标的感知信息及其对任务的 affordance 以及来自交互模块 I 的精确指令作为输入。然后,它产生一系列子目标作为输出。“技能层次”的概念通常涉及创建一系列子目标(Song(2023))。每个子目标都需要一项技能,该技能可能由一个或多个原始动作组成(Zhang(2023c))。例如,向水壶中注水、加热水和取茶叶等任务,就是机器人需要按特定顺序完成子目标的例子,以按照指示实现最终目标。
- 状态。状态模块的输入是当前环境、目标和机器人状态。状态需要使用多个传感器进行感知。输出是状态的特征。状态包括机器人本体感觉 S/robot、环境状态 S/e 和目标状态 S/o。 S/e 和 S/o 的区别类似于图像的前景和背景。S/robot 一般与机器人的机械结构有关。目前,使用基础模型改进机器人机械结构的研究有限,其中之一就是 Stella(2023)。然而,这方面的研究很少,还处于起步阶段。
- 策略。策略模块以状态模块 S 的特征和技能层次模块 H 生成的子目标作为输入。策略根据输入的状态输出动作以完成任务目标。将动作分为三类:代码、目标姿势和增量姿势。代码,指机器人的直接控制代码。目标姿势,指末端执行器的期望姿势,它被输入到运动规划中以生成轨迹。增量姿势,指末端执行器移动的下一个航路点,连续输出的增量姿势形成轨迹。目前利用基础模型生成动作的方法包括 LLM 直接生成机器人执行的代码、VLM 直接生成或 VLM 与 LLM 结合生成相应目标位姿、机器人基础模型(RFM) 通过端到端训练直接输出目标位姿或 delta 位姿、基础模型辅助强化学习生成各种动作等。
- 后置条件检测。该模块将机器人执行任务后观察的环境、目标、机器人状态以及技能层次模块 H 生成的子目标作为输入,输出当前子目标是否成功。如果不是,则向事后纠正模块提供失败原因。事后纠正模块根据失败原因生成一系列自我纠正动作。例如,如果茶杯在拾放过程中被撞倒,则通知事后纠正,并使用拾放将杯子直立并重新放入茶包。
- 过渡。过渡模块 T 将策略模块 P 生成的动作作为输入。它在执行此动作后输出下一个状态,从而有助于减少机器人与真实环境之间的交互。UniSim(Yang(2023b))引入动作输入视频输出框架作为观察预测模型。它将当前动作作为输入,并产生后续观察作为输出。
- 操纵数据生成。该模块充当数据库。它接收现有的操作数据和从机器人任务生成的校正数据。输出是提供任务级操作数据集以供离线训练。
人/智体交互
人类或其他智体与机器人交互的方式有两种:1)向机器人提供任务指令,帮助其理解任务目标并独立完成任务(Khan et al. (2023))。2)与人类或其他智体协作完成任务,共享工作空间信息,并在识别有用或纠错信息时传达纠正指令,以优化机器人的当前动作(Lynch et al. (2023))。
在向机器人传达任务指令时,任务目标可能包含语言歧义,例如场景中既有红色杯子,又有绿色杯子,而任务指令是“抓住杯子”。这种歧义可能会使机器人对要抓住哪种颜色的杯子感到困惑。为了解决这个问题,机器人需要向人类或其他智体询问并确认最终的任务目标,因此需要增强其文本生成和理解能力。在向机器人传达纠正指令时,机器人需要理解纠正指令的含义,并将纠正指令转化为适当的动作。如果需要,机器人应该能够将其当前状态传达给人类或智体。例如,如果机器人正在从摆满书籍的书架上拿起一本书,抬起速度过快可能会导致其他书籍掉落。人类或合作智体需要提醒机器人当前的举起动作很危险,并建议其缓慢举起。如有必要,机器人还应报告其当前的执行状态,例如其抓取速度,并询问该速度是否算高。然而,矫正指导是多种多样的,因此,了解它们至关重要。
如图所示,LLM 使用思维链高效识别歧义,超越列举歧义的局限性。LLM 对文本的理解有效地理解纠正指令,并将原始轨迹转化为纠正轨迹。

前置条件检测和后置条件检测
在前置条件检测和后置条件检测中,需要识别初始条件和终止条件。在前置条件检测中,识别目标并观察目标的affordance。在后置条件检测中,识别任务是否已成功执行并提供技能执行后任务失败的原因。目前,很少有论文专注于识别终止条件。Cui (2022) 利用 CLIP 将目标的文本或图像与终止环境进行比较,以确定任务执行是否成功。RobotGPT (Jin(2024)) 分析任务失败利用执行后操纵目标的位置,但任务失败应在执行过程中确定。
目标 affordance
与目标相关的 affordance,表示该目标为机器人提供的操作范围(Gibson (2014))。早期的方法通过将其视为监督任务来解决这个问题(Kokic(2017))。然而,注释数据集的过程既费力又耗时,因此无法详尽地涵盖现实环境中存在的所有几何信息。因此,研究人员正在探索强化学习的应用,使机器人能够通过不断探索来收集数据并训练affordance 感知模块(Wu(2021))。然而,当前的强化学习方法是在模拟环境中训练的,导致模拟与现实之间存在显着的差距。为了应对这些挑战,研究人员建议使用现实场景中人类互动的视频来训练 affordance 感知模块(Ye(2023b);Bahl(2023))。
目标识别
目标识别可分为两种类型:被动感知和主动感知。与被动感知相比,主动感知会根据感兴趣的区域调整视角(Kroemer(2021))。然后,建模操作任务和泛化操作技能需要对机器人环境和被操作目标进行表征。这些表征构成了技能层次结构、前置和后置条件检测、技能学习和过渡模型学习的基础。Vision Transformers (ViTs) 和类似的基于注意机制神经网络最近在众多计算机视觉基准测试中取得了最先进的性能(Han(2022);Khan(2022);Zhai(2022)),并且 ViT 的扩展推动视觉模型的突破性能力(Dehghani(2023))。
小结
应用于前置条件检测的基础模型如图所示:对目标 affordance,当前的研究探索 LLM 通过文本提供目标部分级先验知识的零样本/少样本能力,从而帮助生成 affordance 图或抓握姿势。直接使用基础模型估计 affordance 是可能的,但仍然存在不稳定性,性能边界不明确;对目标识别,表征学习促进多模态编码器的学习,将各种模态的特征与文本域对齐,帮助模型的认知,类似于人类通过单词学习和思考的方式;编码器的学习促进开放集感知任务,例如开放集检测、开放集分割。

分层技能
在过去的二十年中,对技能层次的研究已经产生了强大的域独立规划器和各种现实世界的应用(Silver(2022))。技能层次模型可以使用文本或视频进行训练,类似于人类从指导手册或教程视频中学习组装程序的方式。至于教程视频,VLaMP(Patel(2023)和 SeeDo(Wang(2024a))训练模型以理解人类视频操作,HourVideo(Chandrasegaran(2024))提出专门为长达一小时的视频语言理解而设计的基准数据集。目前,基于文本的方法在技能层次结构领域占主导地位。PDDL 是一种类似 Lisp 的语言(Silver(2022)),通常用于解决技能层次结构问题。然而,由于 LLM 在自然语言任务中表现出色,而 PDDL 不是自然语言,研究人员正在探索机器人如何使用 LLM 完成技能层次结构任务(Vemprala(2023);Jansen(2020);Driess(2023))。此外,各种基准测试,如 PlanBench(Valmeekam(2023))和 CALVIN(Mees (2022) 可以评估 LLM 的规划和推理能力。
如图所示:重点关注视频在技能层次结构中的应用。视频数据基于互联网并具有大规模属性,在学习从视频映射的高级任务操作描述时能够实现强大的泛化。这种方法不仅有助于技能层次结构,还支持从人类视频中进行单样本和少样本学习。通过观看一个人执行任务,视频被分解为几个步骤。然后使用技能库执行每个步骤。利用 LLM 进行技能层次结构,以 GD(Huang(2023d))框架为例,它避免 LLM 微调的高成本。LLM 表现出强大的翻译能力,因此在协助经典规划器方面具有显着的效用。

状态
状态模块专注于感知环境、目标和机器人状态。主要相关的任务包括底层的感知和高层的姿态估计和重建。
基于深度学习的目标姿势估计方法可以根据问题公式分为实例级、类别级和未见过目标方法(Liu et al. (2024c))。实例级姿势估计方法旨在估计特定目标实例的姿势。这些方法适用于训练集和测试集中完全可用的有限数量的目标。类别级方法使模型能够估计同一类别中新目标实例的姿势。然而,由于需要额外的姿势规范化和检查步骤(Wen et al. (2024a)),获取类别级训练数据具有挑战性。然而,这些方法仍然难以推广到未见过目标类别。作为回应,最近提出一些方法来解决未见过目标姿势估计问题(Liu et al. (2024c))。
有一些研究将基础模型整合到姿态估计中。至于类别级,OV9D(Cai(2024))提出一个开放集类别级 9D 目标姿态和大小估计框架。关键思想是使用 DINO 从掩码 RGB 图像中提取特征。然后,它利用 SD(Rombach(2022))生成归一化目标坐标空间 (NOCS) 图。后拟合算法使用归一化目标坐标空间图和场景深度图来估计目标的大小和姿态。对于未见过的目标姿态估计方法,当前的方法主要依靠开放集分割和检测功能将掩码或边框应用于未见过的目标。这为后续的姿态估计算法准备数据(Lin(2024b);Ausserlechner(2024);Wen(2024a))。
在场景重建方面,由于基础模型对目标具有强大的开放集检测能力,DFF (Shen et al. (2023))、CLIP-Fields (Shafiullah et al. (2022)) 和 LERF (Kerr et al. (2023)) 使用 CLIP 从多视图 2D 图像中提取特征,用于 NeRF (Mildenhall et al. (2021)) 重建。然后将这些特征作为 NeRF 网络输出的一部分进行集成,丰富了重建的 3D 场景的语义信息。3D-LLM (Hong et al. (2023b)) 使用 CLIP 图像编码器从多视图渲染图像中提取 2D 特征。然后通过直接重建、gradSLAM(Jatavallabhula(2023))或神经场方法(Hong(2023b))将这些特征融合为 3D 特征,从而赋予 3D 特征语义信息。CLIP-NeRF(Wang(2022a))将 CLIP 提取的语义特征集成到 NeRF 重建中,以在渲染过程中改变目标纹理。
如图所示:姿势估计方法主要使用生成模型来生成归一化目标坐标空间 (NOCS) 图 (Cai et al. (2024))。场景重建方法使用来自 VLM 图像编码器的特征,例如 CLIP (Gao et al. (2024))。这些特征用作 NeRF 的监督标签。这种方法确保重建的场景包含语义信息 (Kerr et al. (2023))。VLM 图像编码器可以从多视图图像中提取特征。然后可以将这些特征提升到 3D 空间 (Hong et al. (2023b))。

策略
在操纵领域,策略可以根据输入生成机器人执行的信号。策略的输出类型包括代码、目标姿势和增量姿势。策略直接生成机器人执行的代码,帮助人类进行详细观察以进行调试。通过策略直接生成增量姿势可以通过时间序列转换为轨迹,与目标姿势相比,它提供一种更端到端的方法,而目标姿势通常需要后续的运动规划。
输出增量姿势的策略模型,更接近人类任务执行的范例,因为它不需要相机和空间标定或机器人身体配置。相反,它将观察图像作为输入并直接输出下一个运动的方向和幅度。虽然这种方法更加端到端,但它仍然需要大量的数据训练才能将机器人执行的参数嵌入策略模型的隐藏层中。RT-2(Brohan(2023))将这种方法称为视觉-语言-动作 (VLA)模型。遵循这个命名约定,根据不同的输出动作将策略分为视觉-语言-动作-代码(VLAC),视觉-语言-动作-目标-姿势(VLATP),视觉-语言-动作-Delta-姿势(VLADP)。
VLAC
代码生成和程序综合已被证明能够开发可推广、可解释的策略 (Trivedi (2021)。然而,一个能够为多项任务生成代码的机器人,跨领域的丰富知识是必不可少的 (Ellis (2023))。因此,学者们旨在将 LLM 的先验知识应用于代码生成任务 (Chen (2021);Austin (2021))。Code-As-Policy (Liang (2023)) 展示使用 LLM 根据提示直接生成代码供机器人执行的可能性。研究表明:1) 代码编写 LLM 能够实现新推理能力,例如利用对第三方库的熟悉程度来编码空间关系;2) 受递归总结启发的分层代码编写可以改进代码生成。在PROGPROMPT(Singh et al. (2023))中,断言被添加到生成的代码中。在执行断言时,会获得环境状态反馈以检查环境是否满足任务的前置条件和后置条件。
VLATP
利用基础模型生成目标姿势可以分为三种方法:1)直接使用现有的基础模型输出目标姿势。2)通过强化学习训练 RFM 输出目标姿势。3)通过模仿学习训练 RFM 生成目标姿势。
利用在现有的大规模互联网数据集上训练的基础模型,可以直接感知观察图像并输出目标姿势。Instruct2Act(Huang(2023b))利用 CLIP 和 SAM 识别观察图像中的操纵目标,并从 2D 图像输出这些操纵目标的 3D 位置。DALL-E-Bot(Kapelyukh(2023))使用 DALL-E 生成任务的目标图像,并通过将目标图像与观察图像相结合来生成操纵的目标姿势。ReKep(Huang(2024))使用 VFM 和 VLM 从语言指令和 RGBD 观察中提取关系关键点约束。然后,它应用优化求解器来生成一系列末端执行器姿势。
通过收集大型操纵数据集进行训练主要涉及利用离线强化学习。 PI-QT-Opt(Lee(2023))利用大规模多任务数据集,并采用无模型的离策略强化学习方法进行训练。RL@Scale(Herzog(2023a))通过实验收集的真实数据进行训练,提供了广泛的经验验证。Q-Transformer(Chebotar(2023a))通过将 Transformer 模型应用于 RL,促进在混合质量数据上训练高容量顺序架构。
至于模仿学习方法,CLIPort(Shridhar(2021))展示了模仿学习在语言条件下的一般操作中的能力。然而,CLIPort 通过将 4-DoF 末端执行器姿势预测视为像素分类问题来解决它。基于关键点的方法已扩展以处理 6-DoF 末端执行器姿势预测。由于基于关键点的方法主要侧重于 3D 场景到动作任务,因此随着分辨率要求的增加,这些方法的计算成本会变得很高(Ke(2024))。为了解决高空间分辨率问题,PerAct(Shridhar(2023))使用了 Perceiver(Jaegle(2021))的潜集合自注意,其与体素具有线性复杂度。Act3D(Gervet(2023))将场景表示为连续的 3D 特征场,使用感知深度将 2D 模型特征转换为 3D 特征云。它通过循环的粗到细点采样来学习 3D 特征。
一些研究扩展 PerAct 和 Act3D 的工作。 ChainedDiffuser (Xian (2023)) 以 Act3D 为基础,用扩散模型取代运动规划器。这种方法解决持续交互任务的挑战。3D Diffuser Actor (Ke (2024)) 与 Act3D 类似,采用 token 化的 3D 场景表示。然而,与具有 1D 点云嵌入的 Act3D 和 3D Diffusion Policy (Ze (2024b)) 不同,3D Diffuser Actor 利用 CLIP 从 2D 图像中提取特征并将它们聚合成 3D 场景表示。 GNFactor(Ze(2023))通过增强 3D 语义特征改进 PerAct。它通过将预训练的语义特征从 2D 基础模型蒸馏到神经辐射场 (NeRF) 来实现这一点。DNAct(Yan(2024))以 GNFactor 为基础,将感知器模型转换为扩散头。VoxAct-B(Liu(2024b))使用 VLM 将任务分为左臂和右臂的子任务,并应用 PerAct 为每只手臂生成单独的目标姿势。
基于上述工作的 RFM 也在开发中。 LEO(Huang(2023a))通过结合图像和 3D 点云等模态扩展语言基础模型。它使用 LoRA 方法微调操作数据集。这展示了将原始基础模型转移到更多模态和操作任务的能力。VIMA(Jiang(2023))和 MIDAS(Li(2023b))观察到许多机器人操作任务可以表示为交织语言和图像/视频帧的多模态提示。他们构建多模态提示操作数据集,并利用预训练的语言基础模型进行微调以控制机器人输出。Xu (2024)考虑任务目标、物体的物理属性和末端执行器的设计,并创建一个 ManiFoundation 模型来生成目标姿势。但是,ManiFoundation 模型输出的目标姿势不是 6D 姿势。相反,它提供多个接触点的位置以及在每个接触点施加的力。
VLADP
RoboNet(Dasari et al. (2019))建立一个由来自 7 个不同机器人平台 1500 万个视频帧组成的初始池,旨在通过端到端的方法学习一个可泛化的基于视觉机器人操纵模型。这种学习方法与人类学习非常相似,无需标定和 2D 到 3D 映射即可理解空间 3D 坐标。由于想象力,RoboNet 生成下一个动作的预测 2D 图像,并估计机器人下一步应该移动到哪个像素,最终将其转换为机器人应该采取的动作。这种想象力的概念在 3D-VLA(Zhen et al. (2024))和 SuSIE(Black et al. (2023))中都有应用。然而,RobotNet 只能实现一个模型对应一个任务。一个模型对应一个任务的方法也取得了重大进展。ACT(Zhao et al. (2023a))使用动作块来减少复合错误。扩散策略 (Chi (2023)) 将扩散的思想应用于视觉运动控制,解决诸如动作多模态性和序列相关性等挑战,以处理高维动作序列。
有效的机器人多任务学习需要高容量模型,因此 Gato (Reed (2022)) 和 RT-1 (Brohan (2022)) 设计了基于 Transformer 的架构。尽管如此,RT-1 和 Gato 有所不同;RT-1 的输入缺乏来自机器人身体的本体感受,而 Gato 则融合了本体感受。虽然没有证据表明这两种输入方法的优越性,但直观地看,仅通过图像观察可能会因忽略本体感受而损害稳定性。在 Gato 的基础上,RoboCat (Bousmalis (2023)) 证明大序列模型可以通过少样本学习来学习未见过的任务。它提出一个简单但有效的自我改进过程。此外,它表明预测下一个动作和执行该动作后的事后图像可以提高性能。在 RT-1 的基础上,RoboAgent(Bharadhwaj(2023))通过数据增强和动作分块增强模型的泛化和稳定性。MOO(Stone(2023))利用 Owl-ViT 从观察图像中提取目标位置,增强 RT-1 的开放集检测能力。
利用预训练的 VLM(Zhang(2024a))进行微调以构建 RFM 被认为是有效的。 RT-2(Brohan(2023))收集操作轨迹数据,并在将 delta 姿势视为 tokens 后,使用 PaLI-X(Chen(2023b))和 PaLM-E(Driess(2023))等 VLM 模型微调操作数据集。但是,这种方法需要大量数据,以便隐藏层学习与机器人身体、目标和环境相关的参数。Open X-Embodiment(Padalkar(2023b))从 22 个不同的机器人中收集一个数据集,展示了 527 种技能(160266 个任务)。然而,当前的 Open X-Embodiment 数据集面临着异构数据集的挑战。 Octo(Team (2024))、RDT-1B(Liu (2024d))、HPT(Wang (2024c))和 PI 0(Black (2024))提出多模块网络来解决此问题。RT-H(Belkhale (2024))在两步操作中使用 VLM,最初输出抽象的 delta-姿势表示,例如“向左移动”,然后将其转换为 delta 姿势,然后人工干预可以使机器人根据人类语言指令调整轨迹。然而,向所有机器人从业者普及如此昂贵的框架是一项挑战,因为它依赖于私有模型,并且需要对视觉语言数据进行广泛的共同微调才能充分发挥其有效性。因此,机器人社区迫切需要一种低成本的替代解决方案,因此 RoboFlamingo(Li(2023c))和 OpenVLA(Kim(2024))出现,有效地实现采取 VLM 的机器人操纵策略。
互联网视频包含有关世界物理和动力学的信息,一些研究已经探索使用视频数据集和操作数据训练 VLM。GR-1(Wu(2023a))最初在大型视频数据集上进行视频预测训练,然后使用操作数据进行无缝微调。GR-2(Cheang (2024))使用 VQGAN 将每个图像转换为离散tokens,并使用比 GR-1 更大的文本视频数据集进行训练。LAPA(Ye(2024))首先提取视频帧之间的潜在增量动作。然后,它使用此信息标记视频数据集。这些标记的数据集用于训练 VLM 网络。最后,应用小规模机器人操作数据集进行微调,从而实现潜在增量动作到机器人动作的映射。同时,BC-Z(Jang(2022))和 Vid2Robot(Jain(2024))引入使用视频作为任务指令的视频条件策略。MUTEX(Shah(2023))将指令扩展到各种模态,并开发语音条件、语音目标条件、图像目标条件和文本目标条件。
先前的研究,例如 GR-1 和 GR-2,使用 MSE 回归训练策略头。相比之下,OpenVLA 和 RT-2 对其策略头应用分类损失。在扩散策略成功的基础上,TinyVLA(Wen(2024b))采用扩散头作为其策略头,取得比 OpenVLA 更好的性能。
使用预训练的基础模型而无需微调,减少数据收集和训练步骤。Voxposer(Huang(2023c))利用 LLM 生成与 VLM 交互的代码,以机器人的观察空间为基础生成价值图、affordance 图和约束图,统称为价值图。这些组合的价值图作为运动规划器的目标函数,用于合成机器人操纵的轨迹。
基础模型助力强化学习
强化学习因其无需大量注释数据即可探索环境的能力而受到研究人员的广泛关注。然而,它也面临着许多挑战,例如处理长视域序列、有效探索、重用经验数据和设计奖励函数(Kober(2013))。基础模型已经展示常识推理的出现、提出和排序子目标的能力以及视觉理解。由于基础模型的强大能力,许多研究旨在利用基础模型前所未有的能力来解决强化学习面临的挑战。RobotGPT(Jin(2024))旨在将大脑 ChatGPT 的知识蒸馏到经过强化学习训练的小脑中。同时,许多研究探索使用基础模型来解决诸如长视域问题以及有效探索和设计奖励函数等挑战。
Norman(Di Palo(2023))使用 LLM 将任务分解为子目标,并使用 CLIP 识别每个子目标的完成情况,作为稀疏奖励的信号生成器。Eureka(Ma(2023b))利用 LLM 为五指手转笔设计奖励函数。随后,它参与一个循环过程,包括奖励采样、GPU 加速的奖励评估和奖励反射,以逐步完善其奖励输出。与 Eureka 的自迭代和稀疏奖励函数设计不同,TEXT2REWARD(Xie(2023a))将人类反馈纳入奖励函数的迭代更新中,从而产生密集的奖励函数。 FAC (Ye et al. (2023a)) 建议使用基础模型中的知识作为策略先验知识来提高采样行动效率,作为价值先验知识来衡量状态的价值,作为成功奖励先验知识来提供任务成功的最终反馈。
小结
如图所示和如表展示的,预训练的基础模型可以以各种形式与策略模块交互。但是,目前没有基准表明哪种方法最有效。对于端到端 RFM,仍有许多架构考虑因素,以使模型更具可解释性和可靠性。


操控数据生成
要推动机器人进入通用操控时代,大量数据的获取必不可少(Padalkar(2023b))。收集现实世界的数据需要大量的人力和昂贵的远程遥控设备。目前有两种数据收集方法:自下而上的方法和自上而下逐步的方法。自下而上的方法侧重于让机器人首先执行轨迹。然后,它使用众包等方法来标记数据。自上而下逐步的方法涉及决策器设置任务标签。然后,机器人根据这些标签执行任务。RoboVQA(Sermanet(2023))表明,与自上而下逐步的方法相比,自下而上的方法在数据收集方面更有效。它使用收集的数据来训练 VideoCoCa,这有助于以分层方法处理长期任务。 DIAL (Xiao et al. (2022a)) 使用经过微调的 CLIP 代替人类在自下而上的数据收集过程中标记机器人轨迹。这将互联网上的机器人操作数据集转换为机器人-语言操作数据集。PAFF (Ge et al. (2023)) 指出,错误的机器人轨迹可以与新任务联系起来,并使用经过微调的 CLIP 为错误的机器人轨迹标注适当的任务标签。
在模拟中生成大量数据是一种更便宜的解决方案。然而,它仍然需要人力来为特定任务创建场景生成和任务执行代码 (Wang et al. (2023b))。此外,臭名昭著的模拟-到-现实差距问题,仍然是将在模拟中训练的策略迁移到现实世界应用方面的挑战。但有很多方法可以解决模拟到现实的挑战。Matas (2018) 通过域随机化在模拟中充分训练策略,然后成功部署到现实世界中,即使它从未遇到过真实的可变形体。因此,模拟在操纵中起着重要作用。无论是在真实环境还是模拟环境中,提高现有数据集的效率都是必不可少的。主流方法是数据集增强。
模拟器
目前主流的模拟器(Zhou et al. (2023))包括 PyBullet(Coumans and Bai (2016))、MuJoCo(Todorov et al. (2012))、CoppeliaSim(Rohmer et al. (2013))、NVIDIA Omniverse 和 Unity。Pybullet 易于使用和集成,但其图形学相当基础。它不适合需要复杂视觉效果的应用程序。因此,Pybullet 经常与 Blender 一起使用(Shi et al. (2024))。Mujoco 提供高精度物理引擎。它适用于模拟那些铰接体和可变形体的操纵。然而,它对初学者来说门槛很高。CoppeliaSim 为用户提供了广泛的现成环境、目标和原型机器人系统。然而,在处理许多机器人或复杂场景时,CoppeliaSim 可能会遇到性能问题。 NVIDIA Omniverse 提供实时物理模拟和逼真的渲染。但是,它需要大量的计算资源。NVIDIA Omniverse 提供许多接口。用户可以使用这些接口开发各种应用程序。例如,Issac Gym 是一个使用 Omniverse 开发的机器人强化学习平台。Unity 提供丰富的视觉效果和用户友好的界面。它允许创建高度交互的应用程序。但是,它的物理引擎仍然不够精确。模拟器的基本组件是物理引擎和渲染器。这些组件的改进可以增强传感器在模拟中的能力,例如光学触觉传感器(Chen et al. (2023d))。希望模拟器可以添加声音引擎和其他功能。这会让模拟世界感觉更真实。基于学习的模拟器也显示出巨大的潜力。例如,Sora(Brooks(2024))和 UniSim(Yang(2023b))使用来自互联网的大量数据来模拟许多不同动作的视觉效果。
场景和演示生成
模拟场景可以手动创建。然而,这种方法既费时又费力。因此,更倾向于使用自动或半自动场景生成方法(Deitke (2022))。可以使用两种方法。Real-to-Sim 方法将真实场景转换为模拟。自动生成方法无需现实世界观察即可自动生成模拟场景。Real-to-Sim 方法可以准确地模拟现实世界,但它限制了场景的多样性。自动生成方法可以创建更多样化的场景并增加收集演示的多样性。
Real-to-Sim 方法直接引用数字孪生。Real-to-Sim 方法利用 3D 重建技术或逆图形学(Chen(2024c))在虚拟环境中创建真实世界场景(Torne(2024))。但是,3D 重建场景是静态环境,其中目标缺乏现实世界的物理特性,例如材料、质量和摩擦系数,并且是非交互式的(Torne(2024))。逆图形学方法,例如 URDFormer(Chen(2024c)),直接从输入的 RGB 图像生成交互式模拟环境和铰接式目标。与3D 生成方法相比,它减少了人的参与并产生了交互式模拟环境。然而,它缺乏物理合理性,无法解决生成目标的物理属性与现实世界之间的不匹配问题。先前对现实世界物体物理参数识别的研究可以分为从交互中进行估计(Seker & Kroemer(2024);Bohg(2017);Xu(2019)),从演示中进行估计(Torne(2024))。 PHYSOBJECTS(Gao(2023))对 VLM 进行微调,以根据观察估计物理目标属性,例如材料。
GRS(Zook(2024))使用 SAM2 从 RGBD 图像中进行目标分割,并利用 VLM 描述和匹配具有模拟就绪资产的目标。这种方法结合 3D 重建和逆图形学方法的优势。它确保了 3D 生成方法的可信度,并允许场景中的目标进行交互。但是,断言数据集不可能完全覆盖现实世界中的目标。ACDC(Dai(2024))定义一个数字表亲概念。与数字孪生不同,它不会直接复制现实世界的对应物。但是,当资产数据集不包含现实世界目标时,它会通过使用类似的资产来保留相似的几何和语义特征。构建交互资产数据集通常需要创建者手动设计或人工辅助交互目标生成。
自动生成方法可分为基于规则的方法和基于学习的方法。例如,ProcTHOR(Deitke(2022))使用基于规则的约束和统计先验引入用于交互式场景的程序生成流水线。但是,生成的场景通常依赖于预定义的先验,从而导致不切实际的结果,阻碍了智体学习(Khanna(2024))。为了解决这个问题,PHYSCENE(Yang(2024))将物理防撞、目标布局、交互性和可达性指标纳入扩散模型。这种方法增强了生成场景的物理合理性和交互性。由于基础模型的先验知识,目前正在努力使用基础模型进行场景构建。 RoboGen (Wang et al. (2023d)) 利用 LLM 根据任务建议生成相关资产、资产大小、资产配置、场景配置,并使用文本到图像到 3D 生成来创建相应的资产。这些资产被导入模拟器以生成适当的场景。最后,使用 VLM 进行特定于任务的场景验证。GenSim (Wang et al. (2023b)) 使用 LLM 根据任务库中预先缓存的场景代码生成新任务和任务场景代码。然而,使用基础模型自动生成场景的物理合理性仍然依赖于 VLM 进行判断。
为了实现场景多样性,RoboCasa (Nasiriany et al. (2024)) 使用 Madjourney 为厨房场景生成纹理图像。同时,也有不少研究关注资产的自动生成,如zero-1-to-3(Wang et al. (2023d))、Luma.ai(Nasiriany et al. (2024))、LLaMA-Mesh(Wang et al. (2024d))。上述交互环境的建模主要侧重于铰接式体的建模。铰接式体可以由设计者手动创建,也可以在3D扫描后使用程序化(Jiang et al. (2022); Liu et al. (2023b); Zhang et al. (2023d))或人工辅助交互方法(Torne et al. (2024))生成,也可以通过逆图形学(Chen et al. (2024c))自动生成。然而,目前用于生成铰接体资产的自动化方法仅限于旋转关节较少的目标。Real2Code(Mandi(2024))对 CodeLlama 模型进行微调,以处理视觉观察描述,然后输出关节预测。这使 Real2Code 能够重建最多包含 10 个部件的复杂铰接体。
为了在模拟中收集演示,可以根据任务复杂性使用不同的方法。对于简单的任务,例如两指夹持器拾起立方体,可以使用硬编码方法(Wang(2022b))。但是,对于更复杂的任务,应采用远程遥控(Chen(2024a))或技能库(Ha(2023))。可以使用强化学习或梯度优化方法来构建技能库。 RoboGen(Wang (2023d))表明,基于梯度的轨迹优化更适合软体的细粒度操作任务,例如将面团塑造成特定形状。另一方面,强化学习和进化策略对于接触丰富的任务以及与场景中其他组件的持续交互更有效。
模拟-到-现实的差距解决方案
模拟-到-现实问题是机器学习中普遍存在的问题,不仅限于操纵(Zhao(2020))。目标是成功地将策略从模拟(源域)转移到现实世界(目标域)。模拟和现实世界之间的操纵任务差距主要包括两种类型:视觉差距和动力学差距。视觉差距是指渲染器产生的视觉信息与现实世界中的视觉信息之间的差异。动力学差距由几个因素组成。首先,模拟中使用的物理引擎与现实世界的物理之间存在差异。其次,包括机器人在内的目标属性导致目标的动力学差距。最后,机器人中存在控制差距,例如由不同的 PID 参数引起的静态误差变化。目前,有三种主要方法来解决模拟-到-现实的差距:系统识别、域随机化和迁移学习(Zhao(2020))。
系统识别(Kristinsson 和 Dumont (1992))旨在为物理系统创建精确的数学模型,使模拟器更加逼真。然而,在模拟器中准确构建复杂环境的模型是不可能的。
域随机化(Ramos(2019))涉及在模拟中向参数添加随机扰动。这可以包括各种元素,通常分为视觉随机化和动力学随机化。视觉随机化涵盖照明、物体纹理和相机位置等视觉参数。动力学随机化涵盖目标大小、表面摩擦系数、目标质量和执行器力增益等动态参数。通过体验不同的模拟环境,该策略可以适应广泛的现实世界条件。对于该策略而言,现实世界本质上只是另一个受干扰的环境。然而,参数随机化需要人类的专业知识。Ma(2024)证明 LLM 在选择随机参数和确定随机化分布方面表现出色。这使得域随机化更加自动化。
迁移学习 (Yu & Wang (2022); Tan et al. (2018)) 涉及使用有限的现实世界数据将在丰富模拟数据上训练的策略应用于现实世界。将现实世界和模拟中的策略视为不同的任务。可以使用任务迁移方法进行迁移学习。例如,Rusu et al. (2017) 使用渐进网络(progressive network),将模拟中训练的策略知识应用于有限现实世界数据训练出来的新策略,而不会丢失先前的知识。将现实世界和模拟中的策略视为同一项任务,即使数据分布不同。可以使用域自适应方法来解决这个问题。域自适应的三种常见方法是基于差异的方法 (Lyu et al. (2024))、基于对抗的方法 (Eysenbach et al. (2020)) 和基于重建的方法 (Bousmalis et al. (2016))。基于差异的方法使用预定义的统计指标来测量源域和目标域之间的特征距离。这有助于对齐它们的特征空间。基于对抗的方法使用域分类器来确定特征是来自源域还是目标域。经过训练后,提取器可以生成在两个域中不变的特征。基于重建的方法还旨在通过设置辅助重建任务并使用共享特征恢复原始输入来查找域之间的共享特征。
上面讨论的方法假设目标域保持不变。然而,同一机器人的许多物理参数可能会发生显著变化。温度、湿度、定位和磨损等因素都会随着时间的推移影响这些参数。这使得弥合模拟与现实之间的差距变得更加困难。为了解决这个问题,DORA(Zhang et al. (2024b))使用信息瓶颈原理。它旨在最大化动态编码和环境数据之间的互信息。同时,它最小化动态编码和行为策略操作之间的互信息。 Transic (Jiang (2024a)) 提出一种数据驱动的方法,使用人-在-环框架实现成功从模拟-到-现实的迁移。
数据集增强
当前的数据增强主要可分为场景级和目标级。场景级是指改变场景中目标的布局。例如,MimicGen(Mandlekar (2023))和 DexMimicGen(Jiang(2024b))会改变目标的位置和方向,而 CACTI(Mandi(2022))会向场景中添加新的人造目标。当前数据集增强方法的基础模型主要在目标级别运行。主要思想是使用语义分割为每个目标提取掩码,然后使用生成渲染方法来改变目标的纹理。GenAug(Chen,(2023c))利用语言提示和生成模型来修改目标的纹理和形状,添加新的干扰项和背景场景。 ROSIE(Yu(2023))使用开放词汇分割模型去定位增强区域,然后运行图像编辑器执行文本引导的图像编辑。
小结
如图所示,LLM 可以为任务场景生成可靠的描述或代码。VGM 生成 3D 目标网格并渲染纹理。尽管如此,生成的任务场景的有效性最终必须由 VLM 评估。

本文旨在概述基础模型为一般操作带来的机会。将基础模型嵌入到操作任务中是实现一般操作的可行途径。然而,LLM、VFM、VLM、LMM 和 VGM 的主要应用仅关注一般操作能力的某些方面,例如推理、感知、多模态理解和数据生成。RFM 的当前框架类似于人类学习,不需要标定或机器人参数,直接学习观察和动作之间的映射。然而,这需要大量数据进行学习,提出构建数据闭环的关键问题,确保超过 99% 的成功率仍然是一个未解决的问题。因此,本文提出一个机器人学习操作的框架,以实现一般操作能力,并详细说明基础模型如何解决框架每个模块中的挑战。
然而,本综述中仍有许多未解决的问题如下:
通用操控的框架是什么?
如何设计后置条件检测和事后校正?
通用操控框架应该具备什么样的学习能力?
当前 RFM 的优势和劣势:
如何将互联网规模的视频数据用于 RFM?包括视频的标注类型、视频提取的信息和训练目标
如何设计低成本硬件来收集大规模真实世界操控数据?
如何在模拟中收集大规模多样性和真实感操控数据?
基于 2D 和 3D 的方法的比较分析:
如何实现具有灵巧能力的通用操控?基于模型或者基于学习
如何建立基准?
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)