摘要:本文提出 IndustryNav 动态工业导航基准,基于 Unity 构建 12 个含动态物体 / 人员的高保真仓库场景;设计零样本导航管线与碰撞率 / 警告率安全指标,评测 9 款 VLLM 发现:闭源模型表现更优,但所有模型在路径规划、避障、主动探索上均存在显著缺陷。

一、引言

人类具备视觉 - 空间智能,能够感知、处理并在脑海中表征物体间的空间关系,进而在复杂环境中完成导航。近年视觉大语言模型(VLLMs)作为具身智能体,在感知、操作、导航等任务中展现出显著效果,但空间推理(如距离 / 方向测量、空间关系理解)仍是其核心且尚未解决的挑战。

现有具身智能基准存在两大关键局限:一是聚焦静态家居环境的被动空间感知,缺乏动态物体、人员移动等真实场景的动力学特征;二是仅评估孤立的推理能力(如目标定位),而非整合感知、规划、动作的整体视觉 - 空间智能。

密歇根州立大学&北卡罗来纳大学教堂山分校&俄亥俄州立大学&加州大学圣巴巴拉分校&亚利桑那州立大学&独立研究员团队联合研究的IndustryNav《IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation》:这是首个面向主动空间推理的动态工业导航基准(图 1)。该基准基于 Unity 构建 12 个人工设计的高保真仓库场景,包含动态物体和人员移动;设计结合第一视角视觉与全局里程计的 PointGoal 导航管线,评估智能体的全局 - 局部规划能力;创新性引入 “碰撞率” 和 “警告率” 指标,衡量安全行为与距离估计能力。对 9 款主流 VLLM(含 GPT-5-mini、Claude-4.5、Gemini-2.5)的全面评测表明:闭源模型持续占优,但所有智能体在鲁棒路径规划、避障、主动探索上均存在显著不足,凸显具身智能研究需从被动感知转向动态真实环境下的稳定规划、主动探索与安全行为。

t6853-image.png

图 1 IndustryNav 基准示意图:零样本导航场景下,具身智能体基于第一视角图像、全局里程计和动作 - 状态历史到达目标并规避动态障碍;9 款 VLLM 的任务成功率显示,动态环境空间推理仍具挑战,闭源模型优于开源模型,仅 Nemotron 接近闭源模型性能。

二、相关工作

2.1 VLLMs 的空间推理

现有提升 VLLMs 空间推理的策略可分为三类:

  • 显式几何预训练:从大规模 3D 数据、标注场景数据中学习空间知识,理解几何关系与空间概念;

  • 深度感知增强:添加深度图、点云、多模态特征投影等几何线索,强化 2D 视觉对空间信息的理解;

  • 结构化关系推理:构建符号 / 图结构表征(如场景图、拓扑地图),实现可解释的空间推理。

2.2 空间推理基准

空间推理评测已从简单几何推理发展到复杂具身交互,但现有基准存在明显局限:

  • 被动感知基准:基于静态视角评估视觉接地、空间关系推理,无环境交互过程;

  • 主动探索基准:加入多步导航,但动力学场景简化,缺乏工业场景所需的安全量化指标;

  • 行业专用基准:聚焦户外导航、城市空间理解,但未覆盖动态工业环境的核心需求(如动态障碍、安全避障)。

IndustryNav 填补了这一空白,覆盖碰撞感知、动态障碍处理、全局 - 局部规划、主动交互,且引入工业场景必需的量化安全指标。

2.3 智能体导航

智能体导航研究可分为三类核心方向:

  • 指令跟随推理:聚焦语言接地、动作对齐、语义建图,实现指令驱动的导航;

  • 探索式推理:优化信息增益、搜索策略,适配探索策略提升任务完成效率;

  • 结构化推理:采用分层规划、拓扑推理、语义图,支持可解释的空间推理。

本文将智能体导航研究拓展至动态工业环境的空间推理,强调主动交互与可靠的安全导航。

三、IndustryNav 基准设计

3.1 工业场景构建

3.1.1 仿真环境

基于 Unity 引擎构建工业场景,选择 Unity 的核心原因:

  • 提供大规模高保真仓库资产,社区生态完善,可快速搭建真实场景;

  • 跨平台兼容(Mac/Linux/Windows),支持无界面执行,硬件优化优异;

  • 集成 MLAgents 工具包,便于具身智能体的强化学习 / 模仿学习训练。

3.1.2 仓库场景设计

由 5 名专家手动构建 12 个动态仓库场景,涵盖静态 / 动态两类场景(区分是否含物体 / 人员动画),场景设计遵循 OSHA 安全规范,包含多样化工业资产:

  • 建筑类:墙体、地面标识、楼梯、支撑梁;

  • 存储系统:货架、工业桶、集装箱、传送带、周转箱;

  • 搬运设备:叉车、手推车、地面货运机器人;

  • 人员与设施:作业工人、安全标识、灭火器等。

动态场景中,手动设计叉车、机器人、工人的运动轨迹,模拟真实工业环境的时空变化;为所有物体分配碰撞体几何形状,确保 Unity 物理引擎可精准检测智能体与障碍物的碰撞。

3.1.3 传感器配置

采用多传感器跟踪方案(图 3),兼顾局部感知与全局定位:

  • 第一视角相机:分辨率 1024×1024,捕捉智能体周边环境细节;

  • 全局状态跟踪:实时记录智能体的坐标 (x,y) 和朝向角 θ(0°-360°);

  • 俯视监控相机:分辨率 1024×512,通过智能体顶部的红色锥体实时追踪其全局位置,便于轨迹可视化与定量分析。

z9505-image.png

图 3 IndustryNav 智能体相机配置:第一视角相机捕捉周边环境,俯视相机通过红色锥体追踪智能体全局位置,底部面板展示对应的第一视角和俯视视角,支撑导航监控与轨迹分析。

3.2 零样本导航管线

设计零样本导航管线(图 2),评估具身智能体的全局 - 局部规划能力:

  • 输入信息:第一视角图像(感知周边障碍)、全局里程计(智能体位置 / 朝向 / 目标距离)、动作 - 状态历史(避免动作循环);

  • 方向映射:明确朝向角与真实坐标系的对应关系(θ=0°→西、90°→北、180°→东、270°→南),辅助智能体空间推理;

  • 动作空间:离散动作集(前进、左转、右转、停止),左转 / 右转固定旋转 90°,到达目标附近时输出 “停止”;

  • 推理输出:要求智能体同时输出动作和推理过程,便于分析决策逻辑的合理性。

p7355-image.png

图 2 IndustryNav 基准整体框架:基于 Unity 构建 12 个动态仓库环境,导航管线融合第一视角观测与全局里程计,从任务成功率、轨迹效率、安全行为三个维度(5 项指标)全面评估导航性能。

3.3 评估指标

设计 5 项核心指标,从任务成功、轨迹效率、安全行为三个维度全面评测智能体性能:

3.3.1 任务成功维度

  • 成功率(SR):衡量智能体到达目标的比例,距离阈值设为 20,值越高表示导航稳定性越强;

  • 距离比(DR):量化智能体相对目标的进度(即使未到达目标),值越高表示导航的有效进度提升越显著。

3.3.2 轨迹效率维度

  • 平均步数(AS):衡量每轮导航的平均步数,值越低表示路径规划越高效。

3.3.3 安全行为维度

  • 碰撞率(CR):衡量每轮导航中碰撞次数占前进动作的比例,值越低表示避障能力越强;通过 Unity 碰撞体检测智能体前进后的位置变化,精准识别碰撞事件;

  • 警告率(WR):基于深度图评估近碰撞风险,定义智能体前进路径的感兴趣区域(ROI),若 ROI 内像素深度小于 1 米阈值则标记为警告,值越低表示空间感知和风险规避能力越强(图 4)。

l4027-image.png

图 4 警告检测示意图:当感兴趣区域(ROI)内的最小深度值低于预设阈值时触发警告,可有效反映智能体的近碰撞风险。

四、实验验证

4.1 具身智能体对比实验

4.1.1 实验设置

  • 评测模型:9 款主流 VLLM(5 款闭源:GPT-4o、GPT-5-mini、Gemini-2.5-flash、Claude-Haiku-4.5、Claude-Sonnet-4.5;4 款开源:Nemotron-nano-12B-v2-VL、Llama-4-Scout、Qwen3-VL-30B-a3B-Instruct、Qwen3-VL-8B-Instruct);

  • 实验配置:每个场景随机采样 4 组难度不同的起点 - 目标对,每轮导航 70 步,输入第一视角图像和全局里程计,输出 JSON 格式的动作和推理过程;

  • 核心参数:成功率阈值 δ=20,警告深度阈值 1 米,动作 - 状态历史长度固定为 10。

4.1.2 结果分析

核心发现(表 2):

  • 无 VLLM 能可靠完成导航:所有模型的任务成功率均低于 70%,动态工业环境的空间推理和长时程导航仍是核心挑战;

  • 闭源模型显著优于开源模型:闭源模型在任务成功率、轨迹效率上表现更优,开源模型(如 Qwen3-VL、LLaMA-4)在高风险动态导航中竞争力不足;

  • Nemotron 是最优开源基线:成功率达 55.56%,接近闭源模型,效率和安全指标表现相对合理;

  • 安全是核心短板:所有模型的碰撞率、警告率均偏高,动态环境中的危险感知、避障能力远未达到实际部署要求。

表 2 ,9 款 VLLM 在 IndustryNav 基准的空间推理性能对比

具身智能体 任务成功 效率
平均步数↓
安全

成功率↑(%)

距离比↑(%)

碰撞率↓(%)

警告率↓(%)

闭源 VLLMs

GPT-4o

21.53

49.41

66.76

7.86

13.45

GPT-5-mini

54.17

81.90

49.91

16.89

24.13

Claude-Haiku-4.5

61.81

82.87

46.80

32.18

31.57

Claude-Sonnet-4.5

61.81

86.26

47.33

27.68

31.52

Gemini-2.5-flash

65.28

84.49

45.95

32.14

37.16

开源 VLLMs

Qwen3-VL-8b-Instruct

4.86

27.05

67.22

27.82

25.70

Qwen3-VL-30b-A3B-Instruct

6.25

26.20

66.70

18.97

26.28

LLaMA-4-Scout

15.28

50.69

80.48

56.40

61.53

Nemotron-nano-12b-v2-VL

55.56

70.00

56.40

31.73

35.06

4.2 案例分析

以 GPT-5-mini 为例分析决策逻辑(图 5):

  • 正确决策:识别路径被工人和叉车阻挡,结合目标位置(东南方向)选择左转规避风险,体现基础的全局 - 局部规划能力;

  • 错误决策 1(全局规划失效):识别目标在东侧,但未察觉货架阻挡直线路径,陷入 “左转 - 右转” 动作循环,缺乏路径重规划和主动探索能力;

  • 错误决策 2(距离估计偏差):误判中路无障碍物,执行前进动作导致与货架碰撞,反映距离感知精度不足的核心问题。

核心结论:当前 VLLMs 在动态场景的全局路径规划、主动探索、精准距离估计上仍存在显著缺陷。

4.3 消融实验

4.3.1 动作 - 状态历史的有效性

移除动作 - 状态历史后,智能体的成功率下降、警告率上升,原因是缺乏历史上下文导致短视决策、重复无效动作,验证了历史信息对导航稳定性的关键作用。

4.3.2 俯视图的必要性

添加俯视图后,除 GPT-5-mini 成功率小幅提升外,其余模型性能无改善甚至下降,原因是 VLLMs 难以有效解读俯视图信息,且引入额外视觉噪声,因此仅依赖全局里程计即可提供足够的全局定位信息。

五、结论

本文提出首个基于 Unity 的动态工业导航基准 IndustryNav,包含 12 个高保真仓库场景、零样本导航管线和 5 项多维度评估指标。对 9 款 VLLM 的评测表明:动态工业环境的空间推理仍具核心挑战,闭源模型表现优于开源模型,但所有模型在安全导航、全局规划上存在显著不足;案例分析揭示了全局路径规划、主动探索、距离估计的核心短板;消融实验验证了动作 - 状态历史的必要性,以及俯视图的非必需性。

本文为具身 AI 社区提供了新的基准和关键洞察,推动具身智能研究从被动感知转向动态真实环境下的稳定规划、主动探索与安全行为。

六、局限性与未来工作

6.1 局限性

  • 帧率挑战:场景资产密集、光影复杂,导致运行帧率受限,影响异步执行效果;

  • 视觉保真度:受 GPU 资源限制未启用光线追踪,视觉效果有提升空间;

  • 执行模式:MLAgent 仅支持顺序执行,无法模拟真实环境的连续动态;

  • 动画范围:缺乏工人受伤、工具切换等长尾场景动画;

  • 场景覆盖:未包含户外多仓库集群、货运等工业场景。

6.2 未来工作

  • 帧率优化:通过 LOD 技术、条件渲染等手段提升运行帧率;

  • 主动具身智能体:采用强化学习训练长时程规划策略,提升主动探索能力;

  • 安全感知智能体:引入深度图 / 3D 点云,构建安全导向的学习框架;

  • 高效具身智能体:设计轻量化架构,适配嵌入式机器人的部署需求。

END

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐