RoboRefer:机器人视觉-语言模型中面向带推理的空间参考
25年6月来自北航、北大和北京智源的论文“RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics”。空间参考(spatial referring)是具身机器人与三维物理世界交互的一项基本能力。然而,即使拥有强大的预训练视觉语言模型(VLM),现有方法仍然无法准确理解复杂的三
25年6月来自北航、北大和北京智源的论文“RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics”。
空间参考(spatial referring)是具身机器人与三维物理世界交互的一项基本能力。然而,即使拥有强大的预训练视觉语言模型(VLM),现有方法仍然无法准确理解复杂的三维场景,也无法动态推理指令指示的交互位置。为此,本文提出 RoboRefer,一种三维-觉察 VLM。它首先通过监督微调(SFT)集成一个解耦但专用的深度编码器,从而实现精确的空间理解。此外,RoboRefer 通过强化微调(RFT)推进通用多步空间推理,并采用针对空间参考任务定制的度量敏感过程奖励函数。为了支持 SFT 和 RFT 的训练,引入 RefSpatial,这是一个包含 2000 万个问答对(先验规模的两倍)的大规模数据集,涵盖 31 种空间关系(先验规模为 15 种),并支持复杂的推理过程(最多 5 步)。此外,引入 RefSpatial-Bench,这是一个具有挑战性的基准测试,旨在填补评估多步推理空间指认能力方面的空白。实验表明,经过 SFT 训练的 RoboRefer 达到目前最先进的空间理解水平,平均成功率高达 89.6%。经过 RFT 训练的 RoboRefer 则进一步大幅超越所有其他基线模型,甚至在 RefSpatial-Bench 上的平均准确率比 Gemini-2.5-Pro 高出 17.4%。
开放世界空间智能对于具身人工智能至关重要,因为机器人必须理解和推理三维场景才能在复杂环境中有效交互。空间参考是该领域的一个重要课题,它通过形式化智体如何解释和执行空间约束指令,将空间智能与具身人工智能联系起来,并因此受到越来越多的关注。具体而言,给定传感器观测值(例如,RGB 或 RGB-D)和空间约束指令,空间参考任务旨在预测一个满足指令中复杂空间关系的精确点。如图所示,该预测点可以作为导航路径点、操作目标或放置位置等各种下游具身功能,从而实现广泛的机器人应用。
空间参考任务包含两个不同的复杂程度:(1)单步空间理解,它通过准确识别物体的空间属性(例如,位置、方向)及其空间关系(例如,距离、方向)来构成空间感知的基础。目前大多数研究[1-7]都集中于这一层面,它为复杂的空间参考提供必要的感知基础。(2) 多步空间推理超越了基本理解,通过组合推理按顺序解决复杂的空间参考问题。尽管这种能力对于高级空间智能至关重要,但目前仍未得到充分探索。因此,本文试图通过整合这两个层面来实现全面的空间指称,从而弥补这一空白。如上图所示,首先需要识别离观察者最近的盘子,找到所需的酱油碟,然后确定它们之间的空间,随着空间约束的增加,这项任务的难度也越来越大。
具体而言,现有的基于视觉-语言模型(VLM)[8-11]的方法主要尝试通过整合3D输入来增强第一层面,即单步空间理解。然而,它们要么需要对多视角图像进行成本高昂的三维重建[12, 13],导致模态间断;要么通过共享图像编码器将深度信息视为类似RGB的输入[1, 3, 14],这会带来模态干扰并降低预训练图像编码器的性能,需要额外的协同训练数据进行补偿。相比之下,第二层级,即带有推理的多步空间参照,由于缺乏合适的数据集,仍未得到充分探索,这限制现有模型的能力,也阻碍对单步理解如何支持空间参考的探索。此外,当前的VLM模型严重依赖监督微调(SFT)进行隐式推理,这可能导致模型记忆答案而非进行显式推理,从而阻碍其在开放世界空间参考中的泛化能力和准确性。
问题描述
空间参考问题描述为:给定来自传感器的视觉输入 O(例如 RGB 或 RGB-D 图像)和文本指令 L,在图像空间中预测一个二维点 (x, y) 以指定目标位置或目的地。该指令不仅编码诸如大小(例如,大、小)、位置(例如,相对位置或顺序位置)、方向(例如,正面朝向)和空间关系(例如,距离、方向)等单步空间属性,而且还需要多步空间推理。例如,“将物体放置在笔筒和键盘之间,与杯子上的标志对齐。”(如图所示)随着多个空间约束的组合而变得更加复杂。
与基于区域的二维定位方法 [75, 80, 88] 不同,这种基于点的定位方法更适合机器人领域,且更具通用性。与二维边框相比,点可以通过深度信息自然地映射到三维坐标,从而提供精确的空间锚点。通过利用预测点进行导航、抓取或放置,该方法能够实现多任务学习和执行。此外,它还能在遮挡情况下精确定位可见物体部分,而二维边框通常包含无关物体。
RoboRefer:一种面向空间参考的3D-觉察推理VLM
VLM架构。如上图所示,RoboRefer采用独立的RGB编码器和深度编码器提取特征,然后通过投影器将提取的特征与LLM对齐,用于VQA或点预测。由于3D线索对于空间理解至关重要,因此仅基于RGB预训练的2D VLM缺乏精确的3D感知。最近的方法[1, 3, 14]通过将深度视为一种图像模态并共享RGB编码器来避免显式的3D表示,但这会导致模态干扰,降低预训练编码器的性能,并且需要额外的RGB协同训练来补偿。为了解决这个问题,提出一种简单而有效的方法:使用专用的深度编码器和投影器,并由其对应的RGB编码器和投影器初始化。值得注意的是,在RGB和RGB-D联合训练期间,图像编码器不受深度输入的影响,而深度编码器则独立更新。这种设计不仅避免模态干扰,并且在无需进行大量仅 RGB 协同训练的情况下保持一般的 VQA 性能,而且还通过增强对深度线索(例如距离、近远关系和基于透视的大小变化)的感知来提高空间理解能力。
监督式微调。采用 NVILA [37] 作为基础视觉-语言模型 (VLM);然而,其仅基于二维的预训练限制空间理解能力。为了解决这个问题,提出一种两步监督式微调 (SFT) 方法。
(1) 深度对齐。如图所示,首先训练一个深度投影器,利用 RefSpatial 的 RGB-D 标注将新引入的深度空间与文本空间对齐。在此步骤中,仅更新深度投影器。
(2) 空间理解增强。在 RefSpatial 数据集上微调所有参数,包括单步细粒度标注、具有显式推理过程的多步推理数据以及其他指令跟随数据集 [74, 115, 116]。
因此,该模型在 RGB 和 RGB-D 输入上进行联合优化,图像编码器和深度编码器分别进行更新。该过程不仅通过新的深度模态增强单步空间理解,而且还通过具有显式推理过程的数据强化隐式多步推理,为后续的强化微调 (RFT) 阶段提供“冷启动”。因此,经 SFT 训练的模型在多步空间参考任务中展现出更佳的能力。
强化微调。尽管 SFT 使用具有精确推理的数据,但它倾向于记忆答案,而不是泛化到新的空间约束。因此,设计一个后续的 RFT 阶段,该阶段使用来自 RefSpatial 的多步推理数据,并采用组相对策略优化 (GRPO [101])。为了指导 RFT 进行更准确的点预测,首先定义两个结果奖励(即只关心输出答案是否正确)函数:(1)结果格式奖励 (ROF),用于结构化推理和清晰度; (2) L1 点奖励 (RP),如果最终预测落在真实点附近的特定范围内,则奖励 1 分,否则奖励 0 分。为了提高中间推理的精确度,利用 RefSpatial 中的关键步骤感知标注,并设计专门的、对度量敏感的过程奖励函数:(1) 过程格式奖励 (RPF),强制执行“[感知类型] [目标对象]:”的格式;(2) 准确率奖励 (RAcc),适用于包含在关键步骤感知标注中的步骤。对于每个相关步骤,根据感知类型使用特定度量来测量预测误差(例如,真实点和预测点之间的 L1 距离)。值得注意的是,这种设计与顺序无关,并且不会将推理轨迹限制为固定序列。
从当前策略(由 SFT 模型初始化)中采样 N 个响应 {a_1, …, a_N},以鼓励探索。每个响应都会获得一个综合奖励 (r_i = ROF (a_i) + RP (a_i) + αRP F (a_i) + αRAcc(a_i)),其中 α 设置为 0.25。每个组内的奖励都会进行归一化,以计算相对优势 (A_i = r_i − mean({r_j}) / std({r_j})),然后使用这些相对优势来更新策略,从而强化高质量响应并抑制次优响应。KL 散度正则化项通过将更新约束在参考策略附近来稳定更新。值得注意的是,SFT 初始化提供一个强大的先验信息,使得模型能够快速适应输出格式,并利用从 SFT 中学习的空间理解来支持精确的、逐步的空间推理。上图显示,经过 RFT 训练的模型能够很好地泛化到诸如四-步空间参考之类的任务,逐步处理复杂的空间关系,并产生精确的点预测。
RefSpatial数据集
概述
RefSpatial 是一个综合数据集,它整合来自 OpenImages [117] 的 2D 图像、来自 CA-1M [118] 的 3D 具身视频以及来自 Infinigen [119] 的模拟场景,并使用 Objaverse [120] 资源(参见下图 (a))。RefSpatial 的主要特点包括:(1) 精细标注。以往的空间数据集 [2, 3] 通过将每个类别限制为每个场景中的一个实例来简化目标指称,而 RefSpatial 则包含同一类别的多个目标。此外,每个目标都带有层级式的标注——从宽泛的类别(例如,“杯子”)到精确的空间参考(例如,“从左数第三个杯子”、“离摄像头最近的杯子”)——从而能够在杂乱的环境中实现明确的空间参考。(2) 多维性。除了基本的空间概念、关系、点坐标和点深度预测之外,该数据集还通过标注详细的推理过程(所有数据均为模拟数据)来支持多步骤空间推理,从而弥补现有数据集的不足。(3) 高质量。严格筛选数据以保证质量。保留 46.6 万张包含可文本参考、空间相关目标的 OpenImage 图像(原为 170 万张);从 CA-1M 中抽取 10 万帧带有可文本识别的 3D 边框的图像(原为 200 万帧);并手动检查和标注 3000 个 Objaverse-LVIS 资产的语义方向标签(原为 4.6 万个)。(4) 大规模。数据集包含 250 万个样本和 2000 万个问答对,涵盖定性视觉问答、关于目标属性/关系的定量查询以及点坐标预测(如图 (b)所示)。(5) 丰富的多样性。 RefSpatial涵盖室内和室外场景,包含常见的具身场景,并整合31种不同的空间关系(参见图©),从而在SFT过程中促进精确的空间理解。(6) 易于扩展。流程能够无缝扩展来自各种来源的空间参考数据,包括2D图像、带有边框的3D视频和仿真资源。

数据构建方案
上图展示数据集构建方案,该方案逐步整合 2D、3D 和模拟数据,使通用VLM能够适应空间参考任务,从而增强自下而上的空间理解和推理能力。(1) 2D 网络图像旨在赋予模型核心空间概念和全面的室内外场景深度感知能力。为了缓解室内外场景之间深度尺度和类别差异,利用大规模、多样化的 2D 网络图像数据集 OpenImage [117]。然而,直接提取 3D 感知的空间信息具有挑战性。受先前工作 [1, 35] 的启发,将 2D 图像转换为伪 3D 场景图。具体而言,在高质量图像筛选(从 170 万张图像减少到 46.6 万张图像)后,使用 Qwen2.5-VL [11] 和一种用于生成分层区域描述的启发式方法进一步增强数据,从而同时捕获粗略标签和细粒度的空间参考信息,这使本方法区别于以往的方法。然后,通过目标检测/分割、深度估计和相机内参估计构建场景图,其中目标描述作为节点,空间关系作为边。最后,通过基于模板或基于 LLM 的方法生成 QA 对,并利用从标注描述中提取的目标位置 QA 进行增强。(2) 3D 具身视频旨在为模型提供对室内场景的聚焦空间理解,以及对空间关系和概念的更细粒度感知。因此,利用标注丰富的 CA-1M [118] 数据集。经过精细过滤(从 200 万帧到 10 万帧),构建具有更多样化空间关系的 3D 场景图,这得益于与 2D 方法相比更精确的 3D 边界框。此外,生成自顶向下的占用图,其中编码物体的位置、方向和度量距离(例如,“椅子右侧 10 厘米”),从而能够进行精确的空间定位。(3) 仿真数据赋予模型多步空间推理能力。虽然 2D 和 3D 数据能够实现单步空间理解,但它们在多步空间推理方面扩展性较差。因此,利用程序化生成的场景布局 [119],并使用经过人工验证的资源 [120](从 4.6 万到 3000 个)以及语义方向标注 [7]。任务经过精心设计,旨在促进多步空间推理并生成相应的数据。假设生成的代码反映最优推理,每一行都被翻译成文本形式,中间结果被填充到结构化格式(例如,坐标、距离)中,从而产生带有推理注释的 QA 对。
训练详情
采用 NVILA [37] (2B/8B) 作为基础模型,并应用 SFT 得到 RoboRefer-SFT。由于计算资源的限制,RFT 仅应用于 2B 模型,得到 RoboRefer-RFT。SFT 分为两个步骤:第一步仅使用 RefSpatial 数据集;第二步在 RefSpatial 数据集、指令调优数据集(RefSpatial QA 数据集大小的 1/20)[115, 116] 和参考数据集 [74] 的混合数据集上进行训练。值得注意的是,在第二步中,RefSpatial 数据集同时用于 RGB 和 RGB-D 输入,以强制图像编码器学习超越深度线索的空间理解能力。因此,该模型支持仅 RGB 和 RGB-D 两种推理方式,深度信息可通过相对深度估计模型 [59] 选择性地进行推断。最后,RFT 阶段使用来自 RefSpatial 数据集的多步推理数据进行训练。
仿真评估
采用与 SoFar [7] 中引入的 Open6DOR V2 相同的评估协议,并遵循官方代码库。具体而言,仅测试位置跟踪,因为这项工作侧重于通过空间参考进行定位和放置,而非执行 6 自由度操作任务。值得注意的是,模型在感知阶段(即确定位置和放置)几乎达到 100% 的成功率,失败主要归因于运动规划错误,例如逆运动学 (IK) 失败或易碰撞轨迹。
实际应用评估
UR5 操作
展示 UR5 操作的两个演示:人为干扰和语音中断。在人为干扰的情况下,RoboRefer 以 2.5Hz 的频率运行。预测的二维坐标的显著变化会触发运动中断和重规划。在语音中断的情况下,持续监控传入的语音命令。一旦检测到语音中断,当前任务将停止。用 Whisper [137] ASR 模型转录语音,RoboRefer 将其处理成新的二维坐标,用于任务重定向。
对于抓取操作,二维坐标被输入到 SAM2 [65] 中生成分割掩码,该掩码从第三人称 Intel RealSense L515 深度相机拍摄的场景中过滤出目标物体的点云。提取的点云被输入到 AnyGrasp [138] 中,以预测相机坐标系中的抓取姿态。使用眼-手标定方法,将抓取姿态转换到 UR5 机器人的基坐标系中以执行抓取动作。
对于放置操作,RoboRefer 预测二维放置点,并使用相机的内参和深度数据将其转换为三维坐标。然后,将三维点转换到机器人的坐标系中,以引导放置动作。
G1 人形机器人移动操作
抓取操作方面,在 Unitree G1 人形机器人上安装了一颗头戴式 Intel RealSense D435 摄像头,用于采集 RGB-D 图像。这些图像经 RoboRefer 处理后提取出目标物体的二维坐标。这些坐标引导 SAM2 [65] 生成分割掩码,该掩码对第三人称视角的 D435 点云进行滤波,从而分离出目标物体。滤波后的点云随后被传递给 AnyGrasp [138],用于预测第三人称视角下的抓取姿态,并利用已知的相机到机器人的标定信息将其转换回机器人的基准坐标系。
导航方面,胸前安装的 L515 摄像头持续采集图像,RoboRefer 利用这些图像检测附近的标志性物体(例如,机器人附近的桌子)。将得到的二维位置信息与深度和内参结合,投影到三维世界坐标系中,并通过 FAST_LIO_LOCALIZATION_HUMANOID 集成到全局地图中,用于基于 SLAM 的导航。
在放置过程中,头戴式 D435 采集图像,经 RoboRefer 处理后确定目标放置区域的位置。根据深度和内参计算出的相应三维坐标被转换到机器人的基坐标系中,以实现精确放置。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)