RoboOS:跨具身和多智体协作的分层具身框架
25年5月来自北京大学和北京智源的论文“RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration”。具身智能的兴起,为下一代工业生态系统带来前所未有的挑战,即需要具备韧性、认知驱动的多智体协作,从而彻底改变自主制造、自适应服务机器人和信息物理融合生产架构的范式。然而,当前
25年5月来自北京大学和北京智源的论文“RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration”。
具身智能的兴起,为下一代工业生态系统带来前所未有的挑战,即需要具备韧性、认知驱动的多智体协作,从而彻底改变自主制造、自适应服务机器人和信息物理融合生产架构的范式。然而,当前的机器人系统面临着诸多限制,例如跨具身适应性有限、任务调度效率低下以及动态纠错能力不足。端到端视觉-语言-动作 (VLA) 模型在长期规划和任务泛化方面存在不足,而分层 VLA 模型则缺乏跨具身兼容性和多智体协调能力。为了应对这些挑战,RoboOS 基于大脑-小脑分层架构构建的开源具身系统,实现从单智体到多智体的范式转变。具体来说,RoboOS 由三个关键组件组成:(1)具身大脑模型(RoboBrain),一种为全局感知和高级决策而设计的多模态大语言模型(MLLM);(2)小脑(Cerebellum)技能库,一种模块化、即插即用的工具包,可促进多种技能的无缝执行;(3)实时共享内存,一种用于协调多智体状态的时空同步机制。通过整合分层信息流,RoboOS 连接具身大脑和小脑技能库,促进长期任务的稳健规划、调度和纠错,同时通过实时共享内存确保高效的多智体协作。此外,还增强了边云通信和基于云端的分布式推理,以促进高频交互并实现可扩展部署。 RoboOS 在餐厅、家庭和超市等各种场景下进行的大量真实世界实验,证明其在支持单臂、双臂、人形和轮式等异构具身机器人方面的多功能性。这种能力为跨具身协作提供可扩展且实用的解决方案,推动具身智能的前沿发展。
如图所示:

如图所示,RoboOS 是一个统一的具身系统,建立在受生物启发的大脑-小脑分层架构之上,包含三个核心组件:具身大脑模型 (RoboBrain [16])、小脑技能库和实时共享内存。边缘云 RoboOS 框架通过 FlagScale MLLMs 工具包 [26] 部署,通过同步多个智体之间的认知来实现无缝的多机器人协调。该系统的运行方式如下:首先,具身脑模型通过连续的三级反馈回路管理全系统任务,包括多机器人任务规划、工具调用、时空内存更新和自适应纠错。其次,部署在各个机器人终端上的小脑技能库通过标准化机器人配置文件提供模块化、即插即用的功能。最后,Redis 优化的共享内存维护着一个包含空间关系、运行状态和历史数据的动态知识库,以支持实时决策。该架构确保稳健的大规模部署,同时保持具身化 AI 系统所必需的低延迟交互。

RoboOS 在多机器人任务分配中展现出高任务并发性和灵活性。为了清晰地阐述 RoboOS 的整体工作流程,使用单个全局任务进行详细阐述,如图所示。

步骤 1:全局任务分解。在接收到全局任务指令 T_global 后,RoboOS 通过 RoboBrain 启动检索增强生成 (RAG) 流程,查询共享空间内存,提取与环境相关的信息 M_s。该信息与以下各项集成:(i) 来自先前任务执行的状态反馈 M_t(存储在共享时间内存中);(ii) 机器人的运行状态 S_r(空闲、忙碌或离线);(iii) 机器人技能库 M_r;以及 (iv) T_global。
步骤 2:拓扑子任务分配。监控器根据有向无环图 G 中编码的拓扑依赖关系,动态地并行调度和分配子任务。G 中的每个子任务分为两类:(1)单机器人子任务 (d, r_i),由机器人 r_i 在拓扑深度 d 上自主执行;(2)协作子任务 (d, r_i:j),需要在深度 d 上的多个机器人 {r_i, …, r_j} 之间协调执行。其中,d 表示执行优先级,r_i(或 r_i:j)表示分配的机器人。为了强制执行依赖约束,监视器采用并行分配(在同一深度同时执行独立子任务,例如图中的 (1, R_1) 和 (1, R_2))和顺序分配,其中子任务 (d + 1, r_k) 被阻止,直到深度 d 处的所有先决条件都得到满足(例如 (2, R_1+2 ))。实际上,该系统支持多个子任务图 {G_1, G_2, …, G_n} 的并发管理,确保能够实时适应机器人的动态状态和不断变化的任务依赖关系。
步骤 3:分布式子任务智体。对于每个子任务,RoboOS 都会部署一个专用的机器人智体来管理执行。智体会根据以下情况自主地从技能库中选择工具:(1) 先前执行的反馈,(2) 工具调用历史记录,以及 (3) 环境的部分空间记忆。这种闭环推理有助于动态错误恢复。例如图中当任务为“寻找鸡蛋并将其放在桌子上”时,智体会按顺序调用工具(例如,“检测鸡蛋”)。如果搜索失败(例如,厨房中未检测到鸡蛋),智体会使用空间记忆推断潜在位置(例如,冰箱),并选择导航工具“移动到冰箱”,从而通过迭代工具改进实现自适应恢复。
步骤 4:动态内存更新。完成子任务后(无论成功与否),共享内存都会更新。例如,如果子任务“寻找鸡蛋并将其放在桌子上”成功,鸡蛋的位置就会通过 RoboBrain 从“厨房”更新为“桌子”,RoboBrain 会生成指令来修改空间记忆。此外,反馈、工具调用历史记录和机器人状态都会记录在时间记忆和机器人记忆中。
边云部署
基于并行训练和推理框架 FlagScale [26],RoboOS 支持多机器人系统的端云协同,为具身智能构建统一的基础。它专为“多机器人、多态、多任务”场景而设计,具有可扩展性和超低延迟响应能力。在边缘部署中,机器人注册后会自动与云端 RoboBrain 建立双向通信,通过高效的发布-订阅机制实现实时任务调度和状态反馈(平均命令响应延迟 < 0.001 秒)。为了管理长期运行过程中产生的海量感知和行为数据,FlagScale 包含一个内存优化的数据访问引擎,支持 TB 级历史数据和内存随机访问,从而助力任务重放、异常回溯、跨任务知识迁移以及其他关键场景。此外,FlagScale的框架支持跨分布式设备的大型模型的并行推理和多任务协作调度,从而释放了RoboBrain的系统潜力。
如图所示,用于从预训练的 Qwen2.5-VL-7B [31] 训练 RoboBrain-1.5-OS 模型的数据集包含三类:VLM 数据集、机器人数据集和 RoboOS 增强型数据集。
(1)VLM 数据集:这些数据集按功能类型组织:General-873k [33, 62] 用于增强通用 QA 功能;ScanView-318k [63, 64, 65, 66, 67] 用于改善多视角场景感知;VG-326k[33, 68, 69, 70, 71] 用于增强目标定位中的视觉基础;Spatial-R-1005k [72, 73, 39] 用于空间推理;以及用于时间推理的 Temporal-R-525k [42, 74]。所有数据都经过严格清理,以确保模型在增强定位和时空推理能力的同时,保留强大的质量保证能力。
(2)机器人数据集:这些数据集针对四项核心机器人操作能力进行精心挑选:规划、指向、affordance 和轨迹。具体而言,Planning-700k [75, 16, 76] 增强长远任务规划;Pointing-537k [77, 78] 改善空间位置感知;Affordance-373k [78, 79, 16] 预测交互物体 affordance 区域;Trajectory-428k [80, 16] 预测了完整的操作轨迹以确保成功执行。
(3) RoboOS 增强型 (OS) 数据集:在 RoboOS 框架内进行多机器人任务规划和基于智体的工具调用。具体而言,设计 68 种涵盖超市、家居和餐厅场景的多机器人协作任务类型,并使用 DeepSeek-V3 [60] 生成 45,000 个样本。该数据集名为 Multi-Robot-45k,其实例中的每个问题都包含详细的场景图、机器人规格和一个长周期协作任务,而相应的答案则提供分解子任务的推理流程和工作流图。此外,构建 Robotic-Agent-144k,方法是为每个子任务生成正确的“观察-动作”对(正样本),以及基于概率采样的注入误差的“观察-动作”对(负样本)。

RoboBrain-1.5-OS 模型的训练分为三个阶段,如上图所示。
在 STAGE-1 中,利用包含 3M 样本的大规模高质量 VLM 数据集来增强基础感知和推理能力。
在STAGE-2中,采用精心采样的机器人数据集来提升模型的四大核心具身能力,为了防止灾难性遗忘,STAGE-2 中引入了 10% 的数据,共计 230 万个样本。
最后,在 STAGE-3 中,应用 RoboOS-Enhanced 数据集进行自适应训练,将 2% 的 STAGE-1 数据和 3% 的 STAGE-2 数据混合在一起,共计 249,000 个样本。
在整个训练过程中,在 20 台服务器上使用了 Zero3 [81] 分布式策略,每台服务器配备 8×A800 GPU。
为了展示 RoboOS 的多机器人协作能力,在餐厅、家庭和超市场景中进行演示。在餐厅场景中(图 (a)),一台 Unitree G1 人形机器人和一台 Agilex 双臂机器人协同完成任务:“我饿了,点一个普通汉堡。” RoboBrain-1.5-OS 负责场景感知推理,将任务分解为汉堡准备和配送的子任务。在家庭场景中(图 (b)),一台睿尔曼单臂机器人和一台 Agilex 双臂机器人协同完成“给我一个橙子和一把刀”等任务。在超市场景中(图 ©),RoboBrain-1.5-OS 通过分析尺寸和包装袋兼容性来帮助顾客选择礼物。它协调睿尔曼机器人和 Agilex 机器人,其中 Agilex 执行 VLA 小脑技能“打开礼品袋”,而 Realman 则选择并放置礼物。未来的应用可能会探索与三个或更多机器人进行更复杂的协作,从而显著推进具体人工智能和机器人技术。

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)