导读

在人工智能的语境中,语言智能已经被大模型点燃了,但要让机器人真正“走出去”,单靠语言远远不够。机器人需要知道目标在哪里、如何穿过障碍、怎样与环境互动,这就涉及到另一块关键拼图——空间智能(Spatial Intelligence)。

如果说语言智能回答的是“听懂和表达”,那么空间智能则关乎“在物理世界中生存和行动”。它要求智能体能感知三维空间结构,理解物体关系,预测环境变化,并据此做出决策。这正是具身智能的核心挑战:一个机器人要想具备类人能力,必须先具备稳定的空间感知与推理。

在今年的 RACV 2025 大会上,空间智能成为热门议题。讨论从视觉表征到世界模型,从数据驱动到交互机制,始终围绕一个核心问题:空间智能如何与具身智能结合,支撑机器人和自动驾驶等系统真正落地? 有人认为它是通向通用智能的必经之路,也有人提醒,它或许只是一个阶段性产物,未来会被更大的具身大模型整合。无论如何,空间智能正从学术讨论逐步转向实践探索。

RACV介绍:RACV(Recent Advances on Computer Vision)定位为国内计算机视觉领域的小规模研讨会,通过定向邀请方式汇集领域专家,深度研讨计算机视觉领域中的若干核心问题并形成进展报告。研讨会试图通过务实、开放与平等的对话与讨论,深入发掘相关研究领域潜在的问题,为广大的科研人员提供观察问题的新视角与新观点。

空间智能的研究并非全新起点,而是经典三维视觉和认知科学在具身智能语境下的再发展。从大会讨论来看,至少有三条清晰的路径:

1. 从二维视觉到三维交互

最初的研究聚焦于二维图像或视频中的空间关系推理,例如“物体A是否在物体B左边”。这类问题虽然基础,却很快暴露出泛化不足。在具身场景中,单视角的推理远远不够:机器人需要理解多视角、全景,甚至动态场景的空间结构,才能做出动作决策。这推动了从静态图像到全景、视频、多视角表征的演进,也让空间智能从“看懂画面”变成“支撑行动”。

2. 认知地图与心理表征

 人类在行动时会在脑海中构建心理地图,用以规划和预测。类似的机制也被引入人工智能:通过网格化的认知地图或可视化思维链,让模型在推理过程中显式激活空间关系。这类方法在具身智能中尤其重要:一台机器人不仅要知道“椅子在桌子右边”,更要在“走过去”的过程中维持对环境的稳定理解。心理地图式的机制,正是把空间推理转化为行动闭环的一种方式。

3. 语义与几何的深度融合

 传统的视觉模型回答的是“这是什么”;但具身智能需要回答“它在哪、如何绕过它、能否使用它”。因此,空间智能必须把语义识别与几何关系结合起来,构建能直接支撑导航、操作的统一表征。例如,机器人识别到一把椅子,除了知道它是椅子,还要推理出“椅子在门口前方2米,若要通过则需要绕行”。这就是语义和空间的融合,从“识别”走向“具身推理”。

图1|DeepMind团队提出的空间VLM框架,能够利用空间智能赋能VLM,使其具备空间和几何先验,能够推理物理世界中的真实空间几何关系

4. 从抽象推理到真实落地

还有一些研究提出“先抽象后泛化”的思路:让模型先在几何图、路径图等抽象环境中学会空间推理,再迁移到真实世界。对于具身智能,这意味着机器人可以先在虚拟环境中习得“方向”“距离”“避障”的基本规律,再迁移到复杂的现实场景。这种路径被认为更贴近机器人训练的实际需求。

图2|多伦多大学的研究团队提出的HAM-Nav框架,能够基于抽象的手绘地图学习空间分布,仅依靠一张简单的手稿即可实现复杂环境中的自主导航

整体来看,空间智能的研究范式正在从单一的几何建模,走向服务于具身行动的综合体系:它不仅要感知和理解,还要能预测、能推理,并最终反馈到机器人或自动驾驶的行动中去。

如果说空间智能的研究范式定义了“应该如何理解空间”,那么建模技术和世界模型则决定了“是否能真正驱动具身智能去行动”。在 RACV 2025 的讨论中,三维建模和世界模型几乎被一致认为是推动空间智能落地的关键引擎。

1. 离线建模的生成式跃迁

传统的三维重建往往依赖多视角图像,强调几何精度,但缺乏细节和动态性。如今,生成模型的引入让离线建模有了全新的可能:

 重建 + 图像生成:先恢复基础几何,再用扩散模型修补细节与纹理,使场景更逼真。

 重建 + 视频生成:从稀疏视图推演完整的动态场景,实现连续时间的重建。

 重建 + 三维生成:在物体级、场景级上进行精细化建模,支持交互和操作。

这种生成与重建的深度耦合,让建模不再只是“搭框架”,而是能为具身智能提供一个可预测、可交互的虚拟空间。例如,机器人在虚拟场景中尝试路径规划或抓取动作时,可以依赖高保真的建模结果来提升现实执行的可靠性。

2. 在线建模的实时突破

相比离线处理,具身智能更依赖在线建模——机器人必须一边感知一边行动。过去一年,最大的趋势是 3D Gaussian Splatting(3GS) 基本取代 NeRF,成为实时建模的主流表征。3GS 在效率和渲染速度上的优势,使得机器人能在复杂动态环境中保持实时更新的三维地图。

此外,多源传感器融合正在加速发展:相机、LiDAR、IMU、事件相机甚至热成像数据被统一整合,配合在线学习机制,让建模系统能适应新环境和传感器特性。这直接提升了机器人在现实场景中的鲁棒性。

图3|来自CVPR2024的论文DIFIX3D即可通过重建+视频生成这条路径,从稀疏图像直接生成360无死角的完整场景,从而提升对于空间的重建能力

3. 世界模型:具身智能的“世界观”

更重要的是,世界模型逐渐被视为空间智能与具身智能之间的桥梁。

 视频生成类世界模型:通过生成未来画面来预测环境变化,展示“如果这样做,世界会怎样”。这让机器人能在心中“预演”动作。

 隐变量空间世界模型:不直接生成画面,而是学习抽象的状态转移,在潜在空间中预测环境演化。这类方法更贴近机器人控制任务,能够直接输出轨迹和动作。

在具身智能的语境下,世界模型的意义在于提供一个通用的环境表达,不依赖具体任务,却能支撑导航、操作、交互等多种行为。它让机器人拥有了“内在的模拟器”,能预测下一步看到什么、如何移动,甚至在虚拟空间中先试错再行动。

图4|华为自驾技术团队已经将基于世界模型架构开发的自动驾驶模型WAM进行落地,随着系统的在线OTA,越来越多的华为系新能源车辆将在世界模型的赋能下为驾驶员带来更好的驾驶辅助体验

4. 从几何到物理的跨越

 空间智能的目标已不再是单纯的几何还原,而是更深层次的物理真实。讨论中反复提到:未来的建模必须考虑动态、力学、材质、交互等因素。只有当模型既懂几何又懂物理时,机器人才能真正实现从感知到行动的闭环。可以说,建模与世界模型的快速融合,正推动空间智能从“看得清”迈向“看得懂、用得上”。对具身智能而言,这意味着机器人将不再只是环境的被动观察者,而是能在内部重建和预测世界的“主动参与者”。

再强大的模型,也离不开数据和表征。讨论中一个明显的共识是:空间智能的突破,最终取决于能否获得合适的数据,以及能否学到稳定而通用的空间征 对具身智能来说,这不仅是“训练集”的问题,更是“能不能走向现实”的根本。

1. 仿真与真实的双重挑战

在实验室里,仿真环境天然提供完美的深度、位姿和语义标签,成本低、标注精确。但一旦机器人进入真实世界,就立刻遭遇噪声、标定误差、稀疏点云等挑战。模拟到真实的鸿沟,是空间智能落地的最大障碍之一。

因此,越来越多的研究转向“先仿真、后真实”的训练范式:先用大规模仿真数据训练教师模型,再让模型去为真实数据生成高质量伪标签,最后通过蒸馏获得能适应真实环境的学生模型。这样的路径,既能利用仿真的丰富性,又能降低真实数据采集的成本。

2. 显式表征与隐式表征的分歧

空间智能需要三维表征,但如何表征仍存在争论:

 显式建模(点云、网格、3D高斯):优点是可解释性强,能直接用于导航和操作。

 隐式特征(潜空间 embedding):优点是轻量高效,更适合端到端决策。

 短期来看,显式建模仍不可或缺,它让机器人在行动时有“看得见”的地图支撑。但从长远趋势看,越来越多研究希望把三维约束“内化”为隐空间特征,最终让具身智能能直接基于感知做出决策,而无需显式重建。

图5|香港大学研究团队在2025年的CoRL上发表了一项名为HyperTASR的研究,能够使具身智能体通过在整个执行过程中关注与任务最相关的环境特征来模拟类似人类的自适应感知

3. 表征的维度拓展

除了常见的RGB相机和LiDAR,更多传感器正在进入空间智能的研究版图:偏振、光谱、事件相机、热成像……这些模态带来额外的物理线索,使得机器人在极端条件下依然能稳定感知。例如,事件相机只在亮度变化时触发信号,可以显著降低延迟和功耗;偏振信息则能帮助机器人在强反光环境中分辨表面材质。对于具身智能,这意味着在多变环境中能更可靠地维持对空间的感知。

4. 四维表征与动态场景

随着三维表征逐渐成熟,四维(时空)表征成为新的突破口。动态高斯建模就是典型方向:不仅恢复物体的三维结构,还能在时间维度上追踪它的运动轨迹。这样的表征,让机器人不止是“看见现在”,更能“预测未来”。对具身智能而言,这是实现动作规划、事件理解和长期交互的关键。

图6|来自ICCV2025的一样研究TRACE,能够基于真实世界的视频帧,学习其潜在的物理规律,并准确预测出物体的未来运动

5. 数据的本质思考

 讨论中还有一个耐人寻味的观点:空间智能或许不应一味依赖“更多数据”。现实世界永远有无穷的长尾情况,单靠堆砌数据无法覆盖。更有效的方式是通过主动交互提升数据效率:让机器人在环境中自己选择采集哪些数据,以信息增益最大化为目标。这种思路将“数据获取”变成具身智能的一个行动环节,而不只是训练前的准备工作。

总体来看,空间智能的数据与表征研究,正在为具身智能提供坚实底座:既要有高质量的训练素材,也要有能迁移到真实世界的表征方式。未来突破的关键,很可能在于 从被动依赖数据,转向主动构建数据与表征——让机器人在行动中生成和优化自己的世界观

从本届 RACV 大会的讨论来看,空间智能正在从学术概念逐渐走向具身落地。它既是计算机视觉、认知科学和生成模型的交汇点,也是机器人、自动驾驶、AR/VR 等应用的必答题。无论是研究范式的拓展、建模与世界模型的融合,还是数据与表征的持续演进,最终都指向同一个核心:让智能体在真实世界中感知、推理和行动

然而,挑战同样清晰。模拟与真实的鸿沟依旧存在,缺乏统一评测导致研究碎片化,生成方法与真实感知的取舍仍在争论,数据瓶颈也亟需新的突破。从趋势上看,主动交互、世界模型、跨模态融合,以及物理一致性的建模,将是未来几年空间智能领域的主要攻防方向。

更深层次的问题在于:空间智能究竟是通往通用智能的必经阶段,还是一个阶段性概念,未来会被更强大的具身大模型所吸收?这个答案或许要等到机器人真正能在街道上行走、在家庭中服务、在复杂环境中长期自主运行时,才能揭晓。

可以肯定的是,空间智能不再是“看懂三维”的小问题,而是具身智能的核心拼图之一。它决定了机器人能否摆脱实验室的束缚,走向真实世界。未来几年,空间智能很可能成为具身智能能否兑现承诺的试金石

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐