【论文阅读】清华大学最新具身智能综述：从大语言模型到世界模型

该论文提出了一种联合多模态大语言模型（MLLM）和世界模型（WM）驱动的架构，旨在推动具身智能（Embodied AI）迈向通用人工智能（Artificial General Intelligence）。该方法将MLLM的语义推理能力与WM的物理感知预测能力相结合，克服了实时适应和物理基础方面的局限性，从而使智能体在动态环境中变得更强大和适应性更强。

铮铭

1242人浏览 · 2025-10-22 11:18:02

铮铭 · 2025-10-22 11:18:02 发布

引言

具身人工智能（EAI）代表了人工智能研究的根本性转变，它从抽象的计算任务转向创建能够在物理环境中感知、推理和交互的智能主体。本全面调查考察了EAI从其哲学基础到当前状态的演变，特别关注大型语言模型（LLMs）和世界模型（WMs）如何重塑该领域的发展轨迹。

联合MLLM-WM驱动的具身AI架构

图1：所提出的联合MLLM-WM驱动的具身AI架构，展示了多模态LLMs和世界模型的协同集成，以增强任务规划、感知和交互能力。

具身智能的核心前提源于艾伦·图灵在1950年提出的具身图灵测试概念，以及后来认知科学的洞察，即智能是通过与物理世界的感官运动交互而产生的。与处理抽象符号表示的传统AI系统不同，具身智能体必须将其理解根植于物理经验中，这需要在动态环境中无缝集成感知、认知和行动。

历史背景与基础

具身人工智能的知识根源可以追溯到20世纪80年代认知科学家如Lakoff、Johnson和Harnad的工作，他们认为认知从根本上受身体经验塑造，智能行为需要将抽象符号 grounding（扎根）于感官运动模式。这一哲学基础解决了“符号接地问题”——将符号表示与其现实世界指称物联系起来的挑战。

该领域在20世纪80年代末和90年代通过机器人研究获得了发展势头，特别是通过罗德尼·布鲁克斯的 subsumption 架构和麻省理工学院的 Cog 项目。这些举措强调基于行为的控制系统，其中智能是从简单的反应行为和环境动力学之间的交互中产生的，而不是通过集中的符号推理。

2000年代和2010年代，在深度学习进步的推动下，向学习驱动范式的过渡标志着一个关键的演变。现代EAI系统利用神经网络开发复杂的视觉运动策略，从而在非结构化环境中实现更复杂的感知-行动循环和自适应行为。

关键技术基础

当前的EAI格局建立在五个基础技术领域之上，每个领域都贡献了基本能力：

**计算机视觉（CV）**通过ResNet、Vision Transformers和CLIP等模型提供感知基础，使智能体能够解释视觉场景、识别物体并理解空间关系。这些进步支持了Visual SLAM和3D场景理解等关键EAI组件。

**自然语言处理（NLP）**通过BERT和GPT等模型贡献了语言理解和推理能力，使智能体能够处理人类指令、生成自然语言响应并执行复杂的推理任务。

**强化学习（RL）**通过PPO和SAC等模型提供了开发自适应行为的学习框架，使智能体能够通过环境交互和基于奖励的反馈学习最优策略。

大型语言模型和多模态LLMs带来了高层语义推理和任务分解能力，使智能体能够理解复杂指令并将其分解为可执行的子任务。

世界模型提供内部环境表示和预测能力，使智能体能够模拟未来状态并规划符合物理约束的行动。

具身人工智能的核心组件

现代EAI系统由三个相互关联的组件组成，它们形成了连续的感知-认知-行动循环：

主动感知

主动感知包括智能体通过多种感官模态收集和解释环境信息的能力。关键方法包括：

视觉SLAM：ORB-SLAM和RTAB-Map等系统利用视觉特征实现同步定位与地图构建。
3D场景理解：解析复杂3D环境、识别物体和理解空间关系的方法。
主动环境探索：通过有目的的移动和感知，高效收集未知环境信息的策略。

具身认知

具身认知代表了智能体更高层次的推理和规划能力：

任务驱动的自我规划：将复杂目标分解为可执行动作序列的系统。
记忆驱动的自我反思：根据过往经验学习并基于历史交互调整行为的机制。
具身多模态基础模型：整合多种感官输入以实现全面的环境理解。

动态交互

动态交互涵盖智能体执行动作并与环境互动的能力：

动作控制：用于精确操作和移动的低级运动控制系统。
行为交互：用于完成任务和实现目标的高级行为策略。
协作决策：多智能体场景和人机交互的协调机制。

从单模态到多模态方法的演进

EAI发展的一个关键趋势是从单模态方法向多模态方法转变。早期系统通常依赖单一感官模态——仅限视觉的感知系统、仅限语言的认知模型或仅限动作的交互范式。尽管这些专业化方法在狭窄领域取得了成功，但它们存在根本性的局限性：

单模态系统在感知、认知和行动之间创建了人为的界限，阻碍了实现鲁棒具身智能所必需的整体环境理解。例如，一个仅限视觉的导航系统可能擅长避障，但无法理解口头导航指令，而一个仅限语言的规划系统可能会生成物理上不可能的动作序列。

现代多模态EAI系统整合了多种感官输入和推理模态，从而实现更全面的环境理解和更灵活、适应性更强的行为。这种整合使智能体能够利用互补的信息源——使用视觉输入进行空间理解，同时处理音频进行通信，并将两者与触觉反馈结合用于操作任务。

大语言模型在具身AI中的应用

大语言模型已成为增强具身智能的强大工具，尤其是在两个关键领域：

语义推理

大语言模型擅长解释复杂的自然语言指令并理解任务中的上下文关系。对于具身智能体而言，这种能力使其能够处理“打扫厨房”等高级人类指令，并将其转化为有意义的行为目标。大语言模型可以理解隐含要求，处理模糊指令，并在长时间交互中保持上下文感知。

任务分解

大语言模型在将复杂目标分解为可由具身智能体执行的结构化子任务方面表现出卓越的能力。例如，“准备晚餐”的指令可能被分解为：找到食材、取出厨具、遵循食谱步骤和清洁工作区。这种分层规划能力弥合了高级人类意图和低级机器人动作之间的鸿沟。

然而，大语言模型在具身环境中面临显著局限性：

缺乏物理基础：大型语言模型（LLM）通常会生成违反物理约束或忽略环境现实的计划，因为它们的训练主要涉及基于文本的模式而非物理经验。
实时适应性差：LLM知识的静态特性限制了它们动态适应不断变化的环境条件或意外障碍的能力。

具身AI中的世界模型

世界模型（WM）提供了补充能力，解决了LLM在具身环境中面临的许多限制：

内部表征

世界模型擅长构建环境动力学的全面内部模型，捕捉物体行为、物理定律和空间关系。这些表征使智能体能够理解行动如何影响环境，并预测不同行为选择的后果。

未来预测

世界模型可以基于提议的行动模拟未来的环境状态，从而实现基于想象的规划和假设分析。这种预测能力对于安全有效的具身行为至关重要，它允许智能体在执行前评估行动序列。

世界模型的数学基础可以表示为：

$$
s_{t+1} = f(s_t, a_t, \theta)
$$

其中 $s_t$ 代表当前状态，$a_t$ 是行动，$\theta$ 是模型参数，$s_{t+1}$ 是预测的下一个状态。

然而，世界模型也面临局限性：

语义推理能力有限：世界模型通常侧重于低级物理动力学，难以进行高级语义理解或目标解释。
任务分解挑战：如果没有明确的先验知识，世界模型难以将复杂的、多步骤任务分解为可管理的子目标。

联合多模态大型语言模型-世界模型架构

这项工作的核心贡献是提出了一个由联合多模态大型语言模型（MLLM）和世界模型驱动的具身AI架构，该架构协同结合了两种方法的优势，同时缓解了它们的各自局限性。

架构设计

所提出的架构在MLLM和WM之间建立了双向信息流：

MLLM → WM 增强：

MLLM提供语义上下文和高级目标解释，以指导WM的注意力和模拟。
MLLM的任务分解为WM预测构建规划范围。
自然语言理解帮助WM关注与任务相关的环境方面。

WM → MLLM 增强：

WM为MLLM生成的计划提供物理约束验证。
预测性模拟向MLLM告知行动的可行性和可能的结果。
环境状态表征将MLLM的推理锚定在物理现实中。

协同效益

这种整合带来了几个关键优势：

计划质量提升：MLLM生成的高级计划通过WM模拟得到验证和完善，确保物理可行性，同时保持语义连贯性。

适应性增强：通过WM提供的实时环境反馈，MLLM推理能够动态适应，支持在不断变化条件下的稳健行为。

接地推理：这种结合将抽象的MLLM知识锚定在WM捕捉到的物理经验中，减少了不可能或危险行动序列的发生。

可扩展学习：该架构通过记忆系统支持终身学习，这些系统捕捉语义模式（MLLM）和物理经验（WM）。

应用与未来方向

所提出的联合架构在多个领域具有即时应用：

服务机器人：家庭机器人能够理解复杂的自然语言请求，同时确保在家庭环境中采取安全、符合物理规律的行动。

救援无人机：自主无人机能够语义化地解释紧急情况，同时在不可预测的危险环境中安全导航。

工业自动化：制造机器人能够适应口头指令和环境变化，同时保持精确、符合物理定律的操作。

展望未来，有几个关键研究方向浮出水面：

自主具身AI：开发能够在多样化、非结构化环境中独立运行而无需人工干预的完全自主系统。

硬件优化：创建专门的计算架构，针对联合MLLM-WM处理的独特需求进行优化。

群体智能：将架构扩展到协调多个具身智能体以执行复杂的协作任务。

可信赖性：通过鲁棒的不确定性量化和故障检测，确保关键安全应用中的可靠、安全和可解释的行为。

意义与影响

这项全面的调查对具身AI领域做出了几项重要贡献。通过综合当前方法并明确指出孤立的MLLM和WM系统的局限性，它为架构集成提供了清晰的理由。所提出的联合MLLM-WM架构为实现更强大、更鲁棒和更通用具身智能体提供了一条原则性的途径。

这项工作的意义超越了理论贡献——它为致力于开发下一代具身系统的研究人员和实践者提供了实用指导。通过识别关键技术挑战和未来研究方向，它有助于将社区的努力集中在推动该领域在物理环境中实现通用人工智能的最具影响力的领域。

从专门的、单模态AI系统到集成的、多模态具身智能体的转变，代表了我们处理人工智能方式的根本性转变。这项调查捕捉了这一转变，并为实现能够像生物智能体一样有效理解和与世界互动的真正智能、具备物理能力的AI系统提供了路线图。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla