论文Review SLAM 综述 | 上海交通大学 | What Is The Best 3D Scene Representation for Robotics?| (二)建图定位、交互和导航
摘要: 本文系统综述了机器人领域3D场景表示方法的发展,涵盖传统几何表示(点云、体素、SDF、场景图)与新兴神经表示(NeRF、3DGS、基础模型)。传统SLAM依赖稀疏表示,而稠密表示在导航、避障等任务中更具潜力。神经表示能融合高层语义与语言先验,推动场景理解与具身智能。研究将机器人核心模块分为感知、建图、定位、导航与操作,分析各表示方法的优劣,并探讨未来趋势——3D基础模型可能成为统一解决方案
基本信息
题目:What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
来源:IEEE TRANSACTIONS ON ROBOTICS 2025
学校:上海交通大学
是否开源:https://github.com/dtc111111/awesome-representation-for-robotics
摘要:在本文中,我们对现有的机器人场景表示方法进行了全面的概述,涵盖了传统的表示方法,如点云、体素、符号距离函数( SDF )和场景图,以及最近的神经表示,如神经辐射场( NeRF ),3D高斯泼溅( 3DGS )和新兴的基础模型。虽然目前的SLAM和定位系统主要依赖于点云和体素等稀疏表示,但稠密的场景表示有望在导航和避障等下游任务中发挥关键作用。此外,NeRF、3DGS和基础模型等神经表征非常适合整合高层语义特征和基于语言的先验,从而实现更全面的三维场景理解和具身智能。在本文中,我们将机器人技术的核心模块分为五个部分(感知、建图、定位、导航和操作)我们首先介绍了不同场景表示方法的标准表述,并比较不同模块场景表示的优缺点。本次调查围绕一个问题展开:机器人领域的最佳3D场景表现是什么?随后,我们讨论了3D场景表示的未来发展趋势,特别关注3D基础模型如何取代现有方法,成为未来机器人应用的统一解决方案。同时也探讨了实现该模型的剩余挑战。我们旨在为新手和有经验的研究者提供宝贵资源,探索3D场景表现的未来及其在机器人领域的应用。
V. MAPPING & LOCALIZATION
A. Scene Reconstruction
稠密重建在轨迹(或估计值)获得后重建详细几何,充分利用稀疏地标之外的完整传感器数据。实际系统会在估计哪些内容(占用率、距离场、曲面)、如何表示(显式点/界面/网格与隐式场)以及使用哪些数据结构(体素、八叉树、哈希网格、层级树)之间取得平衡。选择取决于下游任务:导航优先使用占用或ESDF进行碰撞检查;作/增强现实通常更倾向于使用网格/刷面/3DGS以便编辑;检测受益于高分辨率的显色表面。
- Geometric Representations
经典的多视图重建流程通过校准图像和深度传感器将场景恢复为稀疏或稠密的点集。COLMAP风格的SfM/MVS管道[233]提供精确的几何形状,但需要广泛的视角,并且在无纹理或反射区域中表现不佳。点集通常通过表面重建后处理成网格,例如泊松重建或德劳内三角化,从而生成防水的渲染和仿真模型[133]、[234]。基于点的方法可理解且易于融合,使用激光雷达(LiDAR)和深度相机等测距传感器,但其存储随面积覆盖增加而增加,且不具备原生视图依赖的外观。体素网格对空间进行离散化,并存储占用率、符号距离或辐射度特征。在机器人领域,OctoMap [24] 通过八叉树来扩展占用映射,明确建模空闲、已占用和未知空间,而 ESDF/TSDF 系统如 Voxblox [44]、[235] 支持规划和地表提取,并实时更新。对于写实视图合成,显式辐射度体素和分解变体以牺牲内存换取速度和并行性,并与局部映射良好集成。体素化使得高效的邻近索引和卷积处理成为可能,但在大型场景中存在分辨率与内存的权衡。除了体素化的SDF,神经SDF还可以将场景编码为空间上的连续隐式函数。DeepSDF [34] 学习物体级形状先验以实现高精度表面恢复,并可扩展到场景层级 [236]。SDF为作和接触推理提供了极佳的几何结构,同时需要密集采样或加速结构以实现高效的查询。
- NeRF-based Representations
NeRF [66] 将场景表示为连续的密度和色彩体积场,从而实现高质量的新颖视图合成和从摆拍图像中的几何重建。UniSURF [69] 提供了一个隐式曲面和辐射场的统一视图,以提升多视图曲面重建,同时保持视图合成质量。Neus [207] 首次引入了体积密度无偏曲面表示的体积积分损失。Neuralangelo [237] 通过引入多分辨率体素哈希(如 [238])和 SDF 梯度的数值计算,提高了重建的可扩展性和准确度。有几部作品[68]、[239]、[240]采用分而治之的策略,用NeRF重建了更大的场景
- 3DGS-based Representations
3DGS [86] 模拟了大量各向异性高斯分布的场景,优化了实时光栅化。与NeRF相比,3DGS大幅加快了训练和渲染速度,并提供了显式且可编辑的原语。原始的3DGS的一个局限是渲染深度或曲面法线时几何形状的模糊性。也没有直接从3DGS转换为密集曲面表示,如SDF和网格。有几种方法通过使用二维高斯面元代替三维椭球体来解决这个问题[211]、[241]、[242],或者采用混合不透明度或距离场形式[212]。
为了进一步大规模部署3DGS以实现逼真的几何精确场景重建,许多研究尝试减少3DGS内存[168]、[243]或采用分层数据结构[140]、[244]、[245]。ScaffoldGS [168] 将局部锚点组织为正规体素网格,并从锚特征中生成具有共享 MLP 的高斯原语,而 OctreeGS [140] 则使用八叉树结构进一步降低内存消耗。对于航拍/城市场景,分层3DGS [244]、CityGaussian[245]和PINGS [232]展示了实时城市尺度渲染,而驾驶场景流水线[246]、[247]则通过动态物体的显式建模重建高精度辐射。
- Foundation Model
基于视觉标记的前馈模型的出现开辟了一条新路径:场景不再通过手工制作的几何求解器重建场景,而是通过从大规模数据中学习的视觉符号集合来表示场景,从而实现对几何、外观和姿态的直接预测。
在三维重建映射领域,基于点图的方法如DuSt3R [116]证明了双视角变换器可以直接回归内部以视觉符号交换的密集点图。这种抽象既提供了显式场景几何体,也提供了密集对应关系,使得下游姿态估计和映射无需反迭三角测量。《DuSt3R》很快通过几部作品扩展,将这一框架应用于更大的收藏和流媒体环境。MASt3R [111] 通过引入对多图像标记的全局推理来提升多视图一致性,而 Spann3r [114] 和 MUSt3R [112] 通过配备智能内存和检索机制,将架构扩展到在线 SLAM。类似地,一系列研究[113]、[248]、[249]将几何估计本身视为一个标记预测问题,其中三维结构被编码为一组基于视觉输入的潜在标记。通过扩展模型容量和训练数据大小,并采用交替注意力架构,开创性工作VGGT [113]能够为更大批量的图像重建场景,并实现了比以往模型更好的性能。随后,Pi-3 [115]等模型会遵循该流水线,进一步消除了对参考系的需求。最近,类似于 Dust3r 模型的 Pow3r [110] MapAnything [250] 在 VGGT 架构中加入了已知相机参数和深度测量等额外先验信息,以进一步实现通用映射模型。其他一些著作[251]–[253]则更多关注动态物体的建模和跟踪,通过增加额外的跟踪头和在训练过程中使用更多动态场景数据。
这些方法合起来体现了一个新的设计原则:将场景呈现为密集的学习视觉符号集合,而非稀疏的手工工程特征,从而恢复密集的几何结构。向基于代币的模型的转变得益于三维视觉中的缩放律。此类系统依赖大型模型容量,并基于庞大的多视图数据集进行训练。这些方法的有效性验证了这样一个假说:如同自然语言处理,三维重建的性能会随着模型和数据规模的可预测性提升。
B. SLAM

- Geometric Representations
基于特征的视觉SLAM [10]、[254]和LiDAR里程计[13]、[255]–[257]通过匹配稀疏点或注册扫描来估计姿态,地图作为关键点、冲波点或BEV地图。对于使用 RGB-D 和 LiDAR 进行密集映射,surfel maps [7]、[258] 可以保留带有法线、颜色和置信度的局部表面元素,支持基于渲染的快速跟踪和用于环闭纠正的后期变形图。这些流水线稳健高效,但会产生稀疏或分段密集的几何体,并且在下游感知或远程作方面提供有限的写实渲染。
体积占用地图可以支持密集跟踪和在线融合。早期关于2D LiDAR SLAM [259]、[260]的工作主要基于占用网格地图。基于概率机器人理论,存储在网格中的占用概率被纳入粒子滤波器中,用于姿态跟踪和地图更新。尽管使用离散体积SDF映射的跟踪已应用于经典系统如KinectFusion[37]和Voxblox[44],但隐式神经SDF映射因其连续性和可微性而在定位方面日益受到关注。
一些近期方法采用基于场景图的表示,将几何、语义和空间关系融合为结构化且可查询的地图。Hydra [128] 构建多层3D场景图,涵盖物体、房间和建筑物。它们结合几何重建和语义推理,实现大规模映射的一致性。ConceptGraphs [51] 将视觉检测、深度和姿态估计融合为一个持久的三维对象级地图,以场景图形式编码实体间的空间和语义关系。
- NeRF-based Representations
NeRF和3DGS都是支持可微分体积渲染的场景表示。为了最小化渲染图像与实际观测图像之间的差异,可以像前面提到的那样优化场景表示参数,或者优化摄像机姿态,正如本节我们将讨论的那样。基于NeRF的SLAM联合优化了从流图像中生成的相机姿态和辐射场。像iMap [71]这样的系统利用基于MLP的NeRF进行可微分渲染,实现基于渲染的跟踪,同时保持密集的写实地图。后来,Nice-SLAM [67]、ESLAM [261]及其他研究[70]、[262]–[265]采用了混合表示方式,将存储在各种显式空间数据结构中的局部可优化特征或多子地图场景表示结合起来,以增强地图比例和保真度,以及跟踪精度。MNE-SLAM [266] 和 MCN-SLAM [199] 提出了分布式多智能体协作 SLAM 框架,支持分布式映射与摄像机跟踪、联合场景表示、环内闭合和多子映射融合。NeuralFeels [230] 提出了一种多模态感知方法,结合视觉与触觉,通过神经距离场提升手部作时的空间感知和物体追踪能力。一些LiDAR SLAM系统[267]、[268]还利用了神经距离场,设计逻辑类似于前述的NeRF SLAM系统,并且能够很好地扩展到更大的户外场景。
- 3DGS-based Representations
3DGS实现了实时、以地图为中心的SLAM,采用显式、可微分的基元和快速光栅化。解耦系统使用外部里程计(例如Photo-SLAM [88]、GS-ICP-SLAM[89]),同时在后端优化高斯分布。耦合系统(SplaTAM [269]、MonoGS [91]等 [270–[272])通过渲染损耗直接追踪高斯映射,近期工作增加了环闭(LoopSplat [273],VPGSSLAM [90])。这些方法提供了密集的几何结构、逼真的渲染和可编辑的地图,运行时间优于基于NeRF的SLAM。对于姿态优化,通过每个原形变换进行直接微分是准确但代价高昂,且可能违反SE(3)流形约束。MonoGS [91] 在 CUDA 光栅器中推导出 SE(3) 上的解析雅可比矩阵,提高了稳定性和速度。最近,基于高斯散射的辐射场被应用为内窥镜SLAM的映射表示[274],为医生在手术过程中提供器官的逼真渲染。
- Foundation Model
Visual SLAM长期以来遵循几何驱动的流程(特征检测/匹配、运动估计、BA优化、显式建图)。尽管学到的特征[275]和光流[11]改善了单个模块,但该流水线仍然脆弱且支离破碎。先驱作品《DuSt3R》[116]走了一条截然不同的道路。它没有优化一个模块,而是用一个基于视觉transformer的单一模型取代整个链条,该模型将图像成对直接映射到密集的三维结构中,以像素对齐点映射的形式出现,并可从中恢复相机参数。后续作品MASt3R [111]增加了像素匹配头部功能并有明确监督,以进一步提升性能,而VGGT [113]则超越了成对设置,一次重建了几张图像。
多项研究将3D视觉基础模型的结果整合到SLAM流水线的不同子模块中。例如,MASt3R-SLAM [120] 利用 MASt3R 的匹配结果作为后端组合调整的前端,而 VGGT-SLAM [117] 通过缩尺感知态图优化合并不同 VGGT 处理批次的子映射,绕过处理数千张图像的内存瓶颈。继先前基于学习的可视化SLAM设计后,ViPE [276]训练自身模型,预测深度和光流,用于前端跟踪和后端优化,重点关注场景中的动态对象。通过利用这些冻结基础模型的强先验,这些作品实现了强大的在线SLAM流水线,即使不需要已知的相机内在设备。
另一条工作方向是更直接地用基于Token的视觉模型建模SLAM问题。例如,SLAM3R [118] 训练了一个类似 Dust3r 的模型,用于局部地图重建和全局地图合并,类似于经典的基于子地图的 SLAM 系统。CUT3R [109] 尝试维护token-based的场景表示,并持续将场景token与当前视图token交互以进行本地化和地图更新。场景token在与新视角的射线图交互时,也可用于新视角生成。虽然目前尚未普及,隐式基于token的场景表示可用于高层次的三维场景理解。将这些场景视觉集成到VLA模型中,将是更好地处理长视野机器人任务的有前景方向。
C. Global Localization
定位指的是估计机器人的6自由度姿态(位置和方向)。我们将全局定位分为已知的基于地图的局部化和基于先前全局映射是否可用的相对态回归。
- Geometric Representations
传统已知的基于地图的全局定位方法使用点云作为三维场景表示。如果查询与全局映射之间的对应关系(数据关联)已知,配准问题可以用封闭形式求解。一种代表性方法是迭代最近点(ICP)[277],它执行点对点对应搜索并迭代计算最优解。正态分布变换(NDT)[278]将点建模为高斯分布,并以分布对分布的方式进行配准。TEASER++ [12] 引入了基于最大团的局部化方法,将问题表述为图论优化。基于体素的定位方法[25]利用基于体素的匹配来提升计算效率和实时性能。Meshloc [279] 引入了一个基于网格的定位框架,相比点云方法,降低了可视化定位任务中测试局部特征和特征匹配器的开销。SG-Reg [55] 提出了一个基于场景图的点配准网络,将多种模态编码为语义节点,并与稳健的姿态估计器进行粗细对应匹配。
- NeRF-based Representations
iMAP [71] 是最早基于 NeRF 的定位方法之一,利用像素级光度损失来优化初始渲染姿态。LENS [72] 将这一理念扩展到户外环境。Loc-NeRF [75] 结合了传统的蒙特卡洛定位与基于 NeRF 的映射,通过光度差来计算粒子权重。其他方法则通过直接估计相对姿态,在无地图环境中实现定位。BARF [74] 提出了一种联合束调整方案,能够同时优化 NeRF 映射和相机姿态。Nope-NeRF [73] 通过学习无失真深度图,结合了光流和额外的约束。增量联合学习[280]进一步推进这一目标,通过联合优化深度、姿态和NeRF映射,同时采用渐进式地图表示以实现大规模场景定位。
- 3DGS-based Representations
iComMa [95] 是已知的基于地图的定位方法之一。它利用查询图像与预建高斯映射渲染图像之间的二维光度残差来优化相机姿态。3DGS-ReLoc [93] 使用基于体素的三维高斯映射,具有 KD 树结构。6DGS [82] 引入了一种新颖的光线投射流水线,结合了基于注意力的机制,能够有效将像素级图像特征与 3DGS 椭球体对齐。Gsplatloc [94] 通过稳健的关键点描述符重建基于特征的三维高斯场景表示。它利用3DGS表示之间的2D-3D对应关系,并查询图像描述符进行粗姿态估计和基于渲染的光度扭曲损失,适用于精细阶段。对于相对姿态估计,无Colmap的3DGS [281]利用视频的时间连续性和显式点云表示,实现无需SfM预处理即可实现准确的视图合成。GS-CPR [282] 利用 3DGS 作为场景表示,并提出了测试时摄像机姿态精细(CPR)框架。它采用3D基础模型进行二维匹配,并支持单次姿态优化。GaussReg [283] 提出了一个粗到细的姿态细化框架。它在粗阶段使用现有的点云配准方法,在精细阶段采用图像引导配准。
- Foundation Model
LEXIS[284] 探讨了利用基础模型CLIP特征进行室内定位。它构建了实时拓扑图架构,并将剪辑功能与图节点关联。FM-Loc [285] 将大型语言模型 GPT-3 与视觉语言模型 CLIP 集成,构建了一个语义图像描述符,能够对场景几何和摄像机视角的显著变化表现出鲁棒性。在该框架中,CLIP用于识别图像中的物体,GPT-3随后根据检测到的物体推断候选房间标签,进一步利用CLIP确定最合理的位置标签。Anyloc [286] 将视觉基础模型与 VLAD 描述符结合,实现可推广的视觉位置识别和定位,无需重新训练或微调。FoundLoc [287] 将 AnyLoc 与 VIO 流水线集成,实现可视化本地化框架。这项工作首次证明了视觉基础模型可以有效部署在资源受限的无人机(UAV)和嵌入式Jetson硬件上,用于真实环境中的状态估计。
VI. EMBODIED 3D INTERACTION
三维交互是现实世界中机器人的基础,涵盖导航和操作。它需要场景表示,能够以密集且可作的形式捕捉几何和语义,使机器人能够有效理解并与周围环境互动。
A. Manipulation
作对场景表示带来了独特的挑战:它需要精确的几何结构、语义基础以及实时决策支持,以实现对象层级推理和用户引导的操作。除了单一格式编码外,许多近期方法采用混合模型——例如将神经场与体素映射结合,或用语言条件token丰富几何——反映了向任务适应性和集成表示的转变。
- Geometric Representations
传统的操作pipelines通常依赖显式几何编码,如点、体素或带符号距离场。基于点的方法直接运行在原始云上,实现轻量级且实时的抓取预测;例如,Contact-GraspNet [288] 和 PointNetGPD [18] 通过可供性线索从点集推断 6-DoF 抓取。体素网格能够离散化三维空间,捕捉密集的占有或特征,并被广泛应用于抓取检测和操作。代表性工作包括SCG [30],对局部点云区域进行体素化以评估抓取质量;基于VoxelNet的抓握态估计[31],应用于体素化输入的三维CNN,以及体积抓取网络(VGN)[46],直接预测TSDF体素网格的6-DoF抓取分布。RoboEXP [59] 和 DovSG [60] 利用场景图表示。
虽然有效,但这些几何编码面临共同局限:点云稀疏且易被遮挡,体素网格内存密集且分辨率受限,SDF需要体积存储和昂贵的表面提取,促使其向神经和混合表示转变。
- NeRF-based Representations
基于NeRF的方法重建外观和几何形状,实现逼真的操作和远程操作。Dex-NeRF [81]、GraspNeRF [79]、Evo-NeRF [80]和机器人远程作的辐射场[289]为交互式控制提供了场景先验。然而,原版 NeRF 存在渲染缓慢和缺乏可编辑性的问题,这促使了结构化扩展。
- 3DGS-based Representations
3DGS提供了一种显式、可微的表示方式,具有快速的光栅化和几何灵活性。高斯抓物 [103]、多数高斯 [100]、抓握Splats [101]和点-移动 [290]展示了通过动态高斯分布进行控控制。HGS-Planner [291]、Object-Aware GS [292]、MANUS [293]和 Physically Embodied GS [294] 展示了在重建、模块化控制、关节交互和基于反馈的修正中的应用。SplatSim [102] 和 RL 配合 Generalizable GS [295] 进一步支持 sim2real 传输。这些工具在互动式培训和低延迟政策学习方面具有前景。
- Foundation Model
基于令牌的场景表示桥接了LLM/VLM和三维环境。特征字段如DFF [126]、LERF [64] 和 GNFactor [296] 通过语言条件特征来分词空间。同理 [297] 通过交互构建数字孪生,而 DreamHOI [298] 和 EnerVerse [299] 使用扩散先验进行交互建模。NLMap [300] 通过基于语义点的表示实现空间语言基础,支持用于现实世界规划的开放词汇查询。虽然不是基于令牌的,SayCan [301] 和 Code as Policies [302] 可选择性地集成分词化或体素化模块,用于空间推理和语言条件规划。
B. Navigation

机器人导航需要对环境的准确感知和场景表现,以规划无碰撞轨迹。我们总结了基于3DGS导航的关键模块,包括路径规划和探索,见图7。
- Geometric Representations
传统的导航方法[15]、[16]利用基于点云的表示实现实时导航。OctoMap [24] 利用带有概率占用估计的八叉树,提供了空间的体积表示,显式建模不仅是被占领的区域,还包括自由和未知区域。它进一步引入了基于八叉树的地图压缩策略,以维护紧凑的三维模型。Fast-Planner [27] 系列作品利用体素映射开发出稳健高效的四旋翼运动规划系统,实现在复杂三维环境中的敏捷飞行。其他方法则采用SDF表示法进行规划。Voxblox [44] 从截断带符号距离场(TSDF)逐步构建欧几里得带符号距离场(ESDF),该场直接支持轨迹优化,并完全实时运行于板载。FIESTA [41] 提出了基于梯度的 ESDF 表示方式,其中设计了两个独立的更新队列,分别用于插入和删除障碍物。
- NeRF-based Representations
NeRF-导航[76]通过惩罚机器人身体点云模型与神经场之间的潜在碰撞,使得利用NeRF地图实现安全导航。NFOMP [77] 学习障碍神经场,以促进在线轨迹优化的障碍物规避。CATNIPS [303] 将密度场重新解释为连续空间中的一组点,遵循泊松点过程,从而实现了碰撞概率的原则性量化。RNR-Map [305] 进一步提出了一种视觉导航框架,利用可渲染的神经辐射图,每个像素处有潜在代码。[304] 提出了基于NeRF地图和不确定性驱动探索的新型导航管道。它利用NeRF地图中的内存信息来增强机器人确定目标位置的推理能力。
- 3DGS-based Representations
一些方法使用基于3DGS的映射生成通往目标的路径,实现了有希望的性能。GaussNav [99] 提出了一个新颖的实例图像目标导航框架,使智能体能够有效编码场景几何和语义,同时通过 3DGS 表示保持对象级纹理特征。该方法构造一个语义高斯映射并将其投影到二维BEV网格上。通过匹配相似物体的渲染外观与给定目标,智能体能够准确识别、定位并导航到指定对象。Splat-Nav [96] 设计了两个部分:一个安全规划模块和一个稳健的基于视觉的姿态估计模块。该计划模块基于数学严谨的碰撞约束,在地图中构建一条安全构造多面体走廊,然后在该走廊中构造一条贝塞尔曲线轨迹。BEINGS [306] 提出了一个带有3DGS场景表示的贝叶斯图像目标导航框架。它减少了数据依赖,并允许通过基于实时数据的贝叶斯更新动态调整ImageNav策略。有些方法使用3DGS场景表示来探索未被观测的地图。GS-planner [307] 设计了利用3D高斯喷溅的高效高精度重建方法。它评估了3DGS在线地图的复原质量和完整性,以指导机器人探索。超越不确定性[98]提出了风险感知环境掩蔽(RaEM)框架。它利用连贯的风险衡量,动态优先级化未知环境中安全关键区域,引导主动视角获取算法识别下一个最佳视角(NBV)。
- Foundation Model
与传统表示和基于NeRF/3DGS的模型相比,视觉语言模型(VLMs)在机器人领域的最直接应用是利用其实现开放式物体识别和场景理解的能力进行导航。NLMap [107] 利用大型语言模型(LLM)构建一个开放且可查询的场景表示,以构建任务计划基础,实现基于语言的目标导向规划。LM-Nav [121] 利用大型语言模型(LLM)从自然语言指令中提取导航用地标,然后通过VLM建立在预建的图中。随后会使用规划模块引导机器人前往指定的地标。VLNBERT [122] 引入了一种视觉语言变换器模型,结合了多模态视觉和语言表示,利用基于网络的数据进行视觉导航。
此外,基础模型支持任务级规划,将复杂任务拆解为更小且可作的步骤。SayCan [124] 是任务级规划的代表性例子,其中大型语言模型用于高级任务规划。同样,VLP [308] 通过集成文本到视频动力学模型,增强了长视野规划。这些任务级方法不需要在环境中精确执行子任务,因为它们依赖于预定义或预训练的技能。Reasoned Explorer [309] 使用大型语言模型作为评估器,为二维无向图中的节点进行评分,该图既作为访问点的地图,也用于前沿评估。该方法结合外部存储和增量制图构建,有效解决了大型语言模型(LLM)在上下文长度上的限制。VoxPoser [123] 应用VLM获得用于运动规划的赋性函数,称为3D值映射。Saytap [310] 提出了创新的概念,即利用足部接触模式作为动作表示,语言模型输出“0”表示无接触,“1”表示地面接触,使大型语言模型能够生成零射击的可作指令,用于四足行走任务,如跳跃和慢跑。
VII. DISCUSSIONS AND FUTURE DIRECTIONS
A. General-purpose or Module Specify
目前,大多数机器人系统基于模块化智能构建,导航或作等功能被拆解为独立模块,如感知、制图、定位、作和导航,以完成复杂任务。这种设计促进了多样化机器人能力的实现。然而,这种模块化可能本质上限制机器人智能的发展。虽然模块化解决方案引入了有用的归纳偏见并支持有效的任务特定性能,但它们通常存在普遍性有限和可转移性较差的问题。在实际作中,它们通常需要在不同场景下反复校准传感器、环境特定建模和参数调整。此外,在高度复杂的环境中,构建准确模型依然尤为具有挑战性。基金会模型的最新进展通过实现端到端智能,提供了另一条路径。
神经科学家以人脑为比方,确定了视觉皮层、体感皮层和运动皮层等专门区域。然而,大脑展现出显著的可塑性,并具备调整功能以适应环境变化或神经损伤的能力。先前的研究[311]强调,在人脑学习过程中,大脑既具备适应现有功能的灵活性,也具有招募新的神经生理活动以驱动期望行为的精准度。这两项属性——灵活性和选择性——在多个时间尺度上运作,技能从努力缓慢向自动高效演变。这种灵活性表明,大脑的模块化可能是统一训练的副产品,而非天生孤立的设计。受这一观点启发,通用机器人的追求需要建立基础模型,利用庞大的数据集和大规模深度学习架构,统一整合感知、推理和行动。同样,在Bertology[312]中,研究人员表明,大型模型的局部组件可以通过持续训练逐步专注于特定功能。
B. Data scarcity with generative model
尽管神经场景表示在准确性和通用性方面具有优势,但一个主要挑战在于机器人专用数据相比用于训练大型语言模型和大型语言模型的互联网级文本和图像语料库更为稀缺。这一限制显著阻碍了神经场景表示和机器人基础模型的发展。为解决这一问题,研究重点是增强神经场景表征在有限数据环境下的泛化能力。其中一条工作线是ROSIE [313],通过生成模型或模拟器探索数据增强,旨在创建语义和视觉上多样的数据,同时确保物理可行性和准确性。另一种方向利用世界模型预测基于动作的状态转变,从而生成额外的训练数据集。例如,导航世界模型(NWM)[314]是一种可控视频生成模型,能够预测过去以自我为中心的视角和导航行为中的未来视觉观察。NWM采用条件扩散变换器(CDiT),训练于多种人机自我中心视频集合,通过模拟和评估候选路径是否达标目标,实现轨迹规划。与具有固定行为的监督导航策略不同,非世界导航可以在规划过程中灵活整合约束。在数据方面,大规模的现实收集工作依然不可或缺,比如Openx的实际化[315],但像Habitat这样的模拟平台也提供了互补的解决方案。Habitat-Sim [316] 能够渲染每秒数千帧,从而构建大规模、高保真度的机器人学习数据集。
C. Real-time Performance
与传统场景表示相比,机器人中神经场景表示的另一个关键瓶颈是推理时间,这仍是可靠实时应用的限制因素。当前神经网络的部署策略大致分为两类。第一种是基于云的部署,大型基础模型如DINOv2 [317]、SAM [318]和GPT [319]通常托管在远程数据中心,并通过API访问。在这种范式中,响应延迟和服务时间高度依赖于底层网络路由、带宽和数据中心计算。因此,在将此类模型集成到自主机器人堆栈之前,必须仔细考虑网络的可靠性和延迟。第二种方法是在边缘计算平台上部署,采用模型蒸馏和量化等技术[320]以缩小模型规模并实现实时推断。然而,这通常会以泛化能力的降低为代价。一个有前景的未来方向在于硬件-算法协同设计,旨在同时提升推理效率并保持模型泛化,以实现机器人实时部署。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)