第 4 章

世界模型

世界模型使智能体能够在无需现实中直接试错的情况下预测和推理未来状态。本节探讨人类认知研究中的“心智模型”与人工智能中的AI世界模型之间的关系,并将它们分为四种范式:隐式范式、显式范式、基于模拟器的范式以及一类其他新兴方法(例如,指令驱动范式)。然后,我们讨论世界模型如何内在地与其他智能体组件交叉,并以开放性问题和未来方向作结,这些问题和方向旨在将这些观点统一到一个理论和实践框架下。


图 4.1:人类可以利用他们大脑中的世界模型来预测自己行为的后果。例如,在打乒乓球时,运动员可以想象或预测球在一次击球后的轨迹。

4.1 人类世界模型

人类自然地构建世界的内部表征,在心理学中通常被称为心智模型 [341, 342, 343]。这些模型作为外部现实的紧凑且可操作的描绘,使个体能够预测结果、规划行动,并在最低限度依赖直接试错的情况下解释新场景。例如,早期关于空间导航的研究表明,人类和动物会形成周围环境的“认知地图” [341],这表明在实际穿越之前就存在一种想象潜在路径的底层能力。

Craik 的开创性论点是,人类思维运行内部的“现实的小规模模型” [342],以模拟事件可能如何展开并评估可能的行动方案。后来的研究提出,这种模拟跨越多种模态——视觉、语言和运动控制——并通过将预测与新的观察结果进行比较来动态更新。这个过程将记忆回忆与前向投射相结合,意味着存储的知识与假设性未来状态的主动生成之间存在密切的相互作用 [343]。更新近的预测性处理理论,如“驾驭不确定性”(Surfing Uncertainty)[344],提出大脑作为一个分层预测机器运作,持续生成关于感官输入的自上而下的预测,并根据预测错误更新其模型。

关键在于,这些人类心智模型是:

• 预测性的:它们预测环境的变化,为决定去向或如何响应提供信息。
• 整合性的:它们将感官输入、过去经验和抽象推理结合成一个关于“接下来可能发生什么”的统一视角。
• 适应性的:当现实与预期出现偏差时,它们会被修正,从而随着时间的推移缩小想象结果与实际结果之间的差距。
• 多尺度的:它们在不同的时间和空间尺度上无缝运作,同时处理即时的物理动态(毫秒级)、中期行动序列(秒到分钟级)和长期计划(小时到年级)。这种灵活性使人类能够根据需要放大细粒度的细节或缩小以考虑更广泛的背景。

以饥饿和进食为例来说明整合的世界建模。当饥饿时,一个人的内部模型会激活关于食物的预测——不仅模拟视觉外观,还模拟味道、气味和预期的满足感——甚至在食物出现之前就触发唾液分泌等生理反应。这展示了跨越感知、记忆和行动规划的无缝整合。

这个例子也凸显了适应性:一旦吃饱,同一个模型会动态更新,降低进一步进食的预测奖励值。尽管识别出相同的食物项目,它们预期的效用会根据内部状态而改变。此外,人类维持反事实模拟——现在拒绝甜点,同时准确预测他们稍后会享受它——这使得跨越假设场景和时间范围的复杂规划成为可能,这是全面的人工智能世界模型努力复制的能力。

总之,人类世界模型不是一个静态的事实库,而是一个灵活且不断演变的心理构造,深深植根于感知和记忆,并持续塑造(也被塑造于)个体与外部世界的互动。

4.2 将人类世界模型转化为 AI

人工智能研究长期以来一直寻求复制人类心智模型所展现出的预测性、整合性和适应性品质 [341, 342]。例如,早期的强化学习框架提出了学习用于规划的环境模型——以 Dyna [345] 为例——而同时期的工作则研究了使用神经网络来预测流数据中的未来观测 [346, 347]。这两个方向的动机都是认为,一个世界的内部模拟器可以比纯粹的反应式、试错学习实现更高效的决策。

随后深度学习的进步使“AI 世界模型”的概念更加清晰。一种有影响力的方法引入了一个环境的端到端潜在生成模型(例如,“世界模型”[348]),其中循环神经网络(RNN)和变分自编码器(VAE)共同学习“梦见”未来的轨迹。这些潜在的推演允许智能体离线训练或改进策略,有效地模仿了人类在执行动作前进行心智演练的方式。与这种隐式设计并行,显式的前向建模方法在基于模型的强化学习(model-based RL)中出现,让智能体能够预测 P ( s ˉ ′ ∣ s , a ) P(\bar{s}^{\prime}\mid s,a) P(sˉs,a) 并通过近似前瞻进行规划 [349, 350]。

另一个研究分支利用大规模模拟器或真实世界的机器人技术,将学习植根于极其丰富的多样化经验中 [351, 352]。这种设置让人联想到人类儿童通过积极探索环境来学习,逐渐完善其内部表征的方式。然而,一个关键问题仍然存在:智能体系统能否将这些方法(隐式生成建模、显式分解和模拟器驱动的探索)统一成一个类似于在人类中观察到的连贯的“心智模型”?近期基于大语言模型的推理 [107, 74] 的激增暗示了跨越模态和任务的潜力,呼应了人类如何在一个预测框架下整合语言、视觉和运动知识。

总的来说,随着 AI 系统追求灵活、样本高效的学习,AI 世界模型成为了从心智模型的认知理论到实现为人工智能体配备想象力、预测性推理和在复杂领域中稳健适应能力的实现的观念桥梁。

4.3 AI 世界模型的范式

设计一个 AI 世界模型涉及到确定 AI 智能体如何获取、表示和更新其对环境动态的理解。虽然实现方式各不相同,但大多数方法可归入四个主要范式:隐式范式、显式范式、基于模拟器的范式,以及混合或指令驱动模型。这些范式可以沿着两个关键维度进一步分析:对内部(基于神经网络)与外部(基于规则或结构化)机制的依赖程度,以及整体系统复杂性。图 4.2 展示了这个二维空间,显示了不同方法在这些轴上的分布情况。通常,隐式模型倾向于更多地依赖内部机制,而显式和基于模拟器的模型则包含更多的外部结构。基于模拟器和显式模型也往往比隐式和混合方法更复杂,反映了它们结构化的推理和工程化的约束。


图 4.2:AI 世界模型方法的二维布局。水平轴表示复杂性(从左到右)。垂直轴跨越从内部方法(底部)到外部解决方案(顶部)。近似位置反映了每种方法对大型学习网络与显式规则或代码的依赖程度,以及其整体系统复杂性。

4.3.1 世界模型范式概述

一个 A I AI AI 世界模型广义上是指智能体用来捕捉或访问近似环境动态的任何机制。令 S \mathcal{S} S 表示可能的环境状态集, A \mathcal{A} A 表示行动集, O \mathcal{O} O 表示观测集。在一个理想化的马尔可夫框架中,环境由转移和观测分布来表征:

T ( s ′ ∣ s , a ) : S × A → Δ ( S ) , O ( o ∣ s ′ ) : S → Δ ( O ) , \begin{array}{r l}&{T(s^{\prime}\mid s,a)\quad:\quad\mathcal{S}\times\mathcal{A}\to\Delta(\mathcal{S}),}\\ &{O(o\mid s^{\prime})\quad:\quad\mathcal{S}\to\Delta(\mathcal{O}),}\end{array} T(ss,a):S×AΔ(S),O(os):SΔ(O),

其中 T ( ⋅ ) T(\cdot) T() 决定状态在行动下如何演变,而 O ( ⋅ ) O(\cdot) O() 定义状态如何产生观测。世界模型通常学习或利用这些函数(或其变体)的近似,允许智能体在不执行环境中实际行动的情况下预测未来的状态或观测。

存在多种方法来实现这些近似,我们将其归为四个主要范式:

• 隐式范式:单个神经网络或潜在结构编码转移和观测映射,而没有显式分解。世界模型 [348] 或用于环境推理的大语言模型是典型例子。智能体通常展开这个黑箱函数来模拟假设的轨迹。
• 显式范式:智能体直接建模或可以访问可学习的转移模型 T θ T_{\theta} Tθ 和观测模型 O θ O_{\theta} Oθ,这通常能够实现可解释性或模块化设计。基于模型的强化学习方法——如 MuZero [349] 或 Dreamer [350]——学习或精化 T θ T_{\theta} Tθ,在近似的状态空间中进行规划。像 [353, 358] 这样的生成式视觉模型如果明确预测下一个状态或帧,也属于这一类。
• 基于模拟器的范式:智能体不近似 (4.1)–(4.2),而是依赖外部模拟器甚至物理世界作为基准事实。像 SAPIEN [351] 这样的系统或真实机器人流水线 [352] 可以被视为智能体查询的“原生”环境模型。虽然不需要学习 T ( ⋅ ) T(\cdot) T(),但智能体在运行时间或现实世界风险方面付出了代价。
• 其他范式(混合或指令驱动):难以简单分类的方法。它们可能以文本形式存储涌现的规则 [108],将隐式大语言模型知识提炼成部分因果图 [356],或将外部组件与学习的子模块相结合。这些方法突显了世界模型研究的演变性质,其中指令、符号规则或即时结构可以补充更传统的近似。

在本小节的剩余部分,我们将考察每种范式如何处理(或规避)方程 (4.1) 和 (4.2),在可解释性和可扩展性方面的权衡,以及它们在从基于文本到高维具身控制等不同任务中的相对优点。

4.3.2 隐式范式

在隐式范式中,智能体将所有环境动态——包括状态如何演变以及观测如何生成——编码在一个单一(或紧密耦合)的神经模型中。形式上,维持一个潜在状态 h t h_{t} ht,根据以下方式更新:

h t + 1 = f θ ( h t , a t ) , o ^ t + 1 = g θ ( h t + 1 ) , h_{t+1}=f_{\theta}(h_{t},a_{t}),\quad\hat{o}_{t+1}=g_{\theta}\big(h_{t+1}\big), ht+1=fθ(ht,at),o^t+1=gθ(ht+1),

其中 f θ f_{\theta} fθ 包含了方程 (4.1)–(4.2) 中的转移函数 T ( ⋅ ) T(\cdot) T() (以及部分 O ( ⋅ ) O(\cdot) O()),但没有使这些组件显式化。一个经典的例子是世界模型框架 [348],其中变分自编码器 (VAE) 首先将视觉输入压缩成潜在代码,然后一个循环网络预测下一个潜在代码,有效地在潜在空间中“梦见”轨迹。最近的工作也探索了将大语言模型 (LLMs) 用于纯文本或符号领域中的环境模拟 [107, 74],尽管这些模型并不总是基于严格的时间序列或基于物理的数据。

因为隐式模型将转移和观测机制融合到一个单一的函数中,它们可以优雅地进行端到端训练,并在内部展开进行规划。然而,它们往往是不透明的:很难解释网络究竟如何捕捉领域约束,或者直接将知识注入到转移的任何部分。这对于高度复杂的环境可能是有利的,因为单个大容量模型可以自行发现潜在结构,但它也存在在分布漂移下变得脆弱的风险。总的来说,隐式范式因其简单性和灵活性而吸引人,但在需要可解释性、显式约束或对动态进行细粒度控制时可能会带来挑战。

4.3.3 显式范式

显式范式则分解世界模型,通常通过学习或编码一个转移函数 T ^ θ ( s t + 1 ∣ \hat{T}_{\theta}{\left(s_{t+1}\right|} T^θ(st+1 s t , a t ) s_{t},a_{t}) st,at) 和一个观测函数 O ^ θ ( o t + 1 ∣ s t + 1 ) \hat{O}_{\theta}(o_{t+1}\mid s_{t+1}) O^θ(ot+1st+1)。这种显式的分离使得可以独立地查询每个函数。例如,可以从以下分布中抽样:

s ^ t + 1 ∼ T ^ θ ( s t , a t ) , o ^ t + 1 ∼ O ^ θ ( s ^ t + 1 ) . \hat{s}_{t+1}\sim\hat{T}_{\boldsymbol{\theta}}\big(s_{t},a_{t}\big),\quad\hat{o}_{t+1}\sim\hat{O}_{\boldsymbol{\theta}}\big(\hat{s}_{t+1}\big). s^t+1T^θ(st,at),o^t+1O^θ(s^t+1).

像 MuZero [349] 或 Dreamer [350] 这样的基于模型的强化学习算法通过精化用于规划的前向模型来例证这种范式。其他显式方法优先考虑生成未来帧的保真度,例如

Diffusion WM [353],它在像素级别应用扩散过程,或者 DINO-WM [358],它在预训练的特征空间内推演未来状态。

通过分解转移和观测,显式方法可以更具可解释性,并且更容易进行调试和施加领域特定的约束。话虽如此,它们仍然对模型误差敏感:如果 T ^ θ \hat{T}_{\theta} T^θ 显著偏离现实,智能体的规划和决策可能会变得无效。许多显式系统仍然主要依赖于内部(神经)表示,但它们可能会集成外部规划器(例如,树搜索算法)以利用显式的转移结构。这种学习组件和符号组件的混合提供了一种自然的方式来融合人类知识,同时保留深度学习的优势。

4.3.4 基于模拟器的范式

在基于模拟器的范式中,智能体将环境更新外包给模拟器,有效地绕过了从数据中学习 T ^ θ \hat{T}_{\theta} T^θ 的需要。形式上,

( s t + 1 , o t + 1 ) ← S T M ( s t , a t ) , (s_{t+1},o_{t+1})\gets S T M(s_{t},a_{t}), (st+1,ot+1)STM(st,at),

其中 s τ M s\tau{\mathcal{M}} sτM 通常是一个外部物理引擎或真实世界本身。像 SAPIEN [351] 和 AI Habitat 这样的平台提供确定性的 3D 物理模拟,允许智能体在受控环境中练习或迭代策略。或者,像 Daydreamer [352] 这样的方法将真实世界的交互循环视为一个“模拟器”,不断地从物理机器人更新在线策略数据。

这种方法产生准确的转移(假设模拟器准确反映现实),从而减轻了学习模型误差的风险。然而,它可能在计算上或经济上成本高昂,特别是如果模拟器保真度很高,或者如果真实世界的试验耗时且有风险。因此,一些智能体将部分学习到的动态与偶尔的模拟器查询相结合,旨在平衡准确的推演与状态-动作空间的有效覆盖。

4.3.5 混合和指令驱动范式

除了这三个主要范式之外,还有越来越多混合或指令驱动的方法,它们融合了隐式和显式建模,或者结合了外部符号知识和大语言模型。通常,这些系统动态地从数据中提取规则,维护不断演变的文本知识库,或者提示大语言模型假设因果关系,然后可以通过直接交互来验证或精化这些关系。

例如,AutoManual [108] 迭代地将交互式环境规则编译成人类可读的手册,以更透明的方式为未来的行动提供信息。同时,COAT [356] 提示一个大语言模型提出观测事件背后可能的因果因素,然后通过直接交互验证或精化这些因素,将基于文本的推理与部分学习的模型联系起来。尽管这些解决方案提供了显著的灵活性——特别是在适应不熟悉的领域或整合实时人类洞察方面——它们在如何构建或更新内部表征方面可能不一致。随着大语言模型提示和实时规则发现的不断发展,这些混合方法有望变得越来越普遍,反映了在端到端学习与外部指令提供的透明度和适应性之间取得平衡的需求。

到目前为止,我们已经介绍了现有世界模型技术的四种典型范式,如图 4.3.5 所示。正如我们所见,每种技术在不同方面都有权衡。

4.3.6 范式比较总结

该表总结了 AI 世界建模中的关键方法,根据它们对外部或内部机制的依赖程度、它们的复杂性以及它们各自的范式进行了分类。“形式”列使用   o   \scriptscriptstyle\mathrm{~o~}  o  表示外部方法, ∙ \bullet 表示内部方法,混合方法则同时具有这两个符号。这种分类与前面的小节一致,包括对每种范式的详细讨论,并补充了图 4.2 中的视觉表示。

4.4 与其他模块的关系

一个全面的 AI 世界模型并非孤立存在,而是与智能体架构的几个关键组件相互作用。这些组件包括(但不限于)记忆、感知和行动模块。在本小节中,我们探讨世界模型如何与这些关键组件集成,以在动态环境中实现连贯和自适应的行为。


图 4.3:世界建模的四种范式:(a) 隐式,(b) 显式,© 基于模拟器,以及 (d) 混合/指令驱动。

表 4.1:跨范式的 AI 世界模型方法总结,显示其形式(外部或内部)、复杂性和范式。

方法 形式 复杂性 范式
ActRe[49] · 简单 隐式
World Models [348] · 简单 隐式
Dreamer [350] 中等 隐式
Diffusion WM [353] · 显式
GQN [354] · 显式
Daydreamer[352] 0 基于模拟器
SAPIEN[351] 0 基于模拟器
PILCO [355] 0 中等 显式
AutoManual [108] 0 简单 其他
MuZero [349] 显式
GR-2 [357] · 显式
DINO-WM [358] · 显式
COAT [356] O 中等 其他
4.4.1 记忆与世界模型

记忆系统在世界模型的运作中扮演着至关重要的角色。世界模型生成未来状态或行动的预测性表征,而记忆则作为构建和更新这些表征的基础。世界模型与记忆之间的关系可以看作是一个循环,其中世界模型预测潜在的未来,而记忆存储过去的经验、观察和学习到的模式,从而实现依赖上下文的推理和未来预测。

记忆机制可以以多种方式构建,包括:

• 短期记忆:这使智能体能够临时持有和更新其内部状态,存储最近的交互或观察。这种短期上下文有助于智能体在即时环境中做出决策。
• 长期记忆:这作为经验和关于环境的一般知识的更持久的存储库。世界模型可以与长期记忆交互以精化其预测,并可能使用历史数据做出更明智的决策或模拟更现实的未来。

例如,在像 Dreamer [350] 这样的基于模型的强化学习框架中,循环神经网络既充当世界模型又是一种形式的记忆,维持一个潜在状态,该状态在每个时间步更新以预测未来状态。这种整合的记忆形式允许智能体既回忆过去的交互又预期未来的交互。

4.4.2 感知与世界模型

感知指的是智能体通过各种模态(例如,视觉、触觉、声音等)感知和解释其环境的能力。世界模型在很大程度上依赖于准确的感官输入来形成关于环境的连贯预测。在许多 AI 系统中,感知模块将原始传感器数据转换为更高级别的表示,例如图像、声波或其他结构化数据。

世界模型与感知之间交互的一个关键方面是智能体如何处理感官输入并将其整合到模型中。世界模型通常依赖于处理过的数据(例如来自卷积神经网络的特征或来自 Transformer 的嵌入)来模拟潜在的未来。此外,世界模型可以通过将注意力集中在精化预测所需的最相关的感官输入上来指导感知过程。

例如,在自主机器人技术中,感知系统通常检测物体或环境特征,然后将其输入到预测场景将如何演变的世界模型中。RoboCraft [359] 通过将视觉观察转换为粒子并通过图神经网络捕捉底层系统结构来实现这种从感知到模型的转换。PointNet [360] 通过编码非结构化的 3D 点云来捕捉环境的空间特性,进一步丰富了感知系统对物理空间的理解。在导航任务中,OVER-NAV [361] 进一步结合了大语言模型和开放词汇检测来构建多模态信号与关键信息之间的关系,提出了一个全向图(omni-graph)来捕捉局部空间的结构作为导航任务的世界模型。感知和世界模型之间的这种反馈循环使智能体能够根据正在进行的预测动态更新其感知,从而实现实时适应。

4.4.3 行动与世界模型

行动指的是智能体通过其与环境交互的决策过程。在智能体系统中,行动是由世界模型对未来状态的预测驱动的。世界模型通过在执行不同行动之前模拟其结果来辅助规划,允许智能体基于预测的后果选择最优的行动方案。

世界模型和行动模块之间的整合可以采取多种形式:

• 基于模型的规划:世界模型显式地建模环境的转移动态 [349, 362, 107],允许智能体在选择最优行动之前模拟多个行动序列(推演)。
• 探索:世界模型也支持探索策略,通过模拟未见过的状态或意外的行动 [363, 350, 364]。这些模拟使智能体能够评估探索状态空间新部分的潜在好处。

在基于模型的规划中,MuZero [349] 通过自我对弈和蒙特卡洛树搜索 (MCTS) 执行隐式规划,将当前状态表示转换为未来状态和奖励预测,以在没有环境规则先验知识的情况下指导决策过程。相比之下,模型预测控制 (MPC) [362] 利用显式动态模型来预测有限时间范围内的多个可能轨迹,通过解决优化问题确定最优控制序列,并使用滚动时域方法持续更新规划。另一方面,Alpha-SQL [365] 在 MCTS 框架内集成了一个作为行动模型的大语言模型,以探索数据库“世界模型”内的潜在 SQL 查询。这种方法根据部分查询状态动态生成有前景的 SQL 构建动作,实现了零样本 Text-to-SQL 交互,无需特定任务的微调。与专注于在不确定环境中进行决策规划的 MuZero 不同,Alpha-SQL 在特定任务中应用 MCTS——在复杂的数据库上下文中通过自我生成的动作指导 SQL 查询构建。

对于探索策略,Nagabandi 等人 [363] 通过为发现新状态提供奖励机制(探索奖励)来激励智能体探索未知区域。Dreamer [350] 提出世界模型可以生成想象中的行动序列(想象推演),允许智能体在模拟环境中安全地评估新行动的好处,而无需冒险进行真实世界的实验。类似地,在离散世界模型 Hafner 等人 [364] 中,智能体通过模拟多个可能的未来状态来有效探索复杂环境,有效地平衡了探索和利用之间的权衡。

例如,在强化学习中,智能体可以利用学习到的世界模型来模拟行动选择任务中的未来轨迹。世界模型评估不同行动的潜在奖励,使智能体能够有效规划并采取最大化长期目标的行动。

4.4.4 跨模块整合

虽然记忆、感知和行动被作为独立的模块讨论,但世界模型的真正力量在于它们能够跨越这些领域进行无缝整合。世界模型持续接收感官输入,更新其内部记忆,模拟未来状态,并利用这些信息来驱动行动选择。这些模块之间的迭代反馈循环允许智能体参与智能的、目标导向的行为,这种行为对环境的变化具有高度适应性。

这种跨模块交互在复杂、动态的系统(如机器人技术)中尤其重要,在这些系统中,智能体必须持续适应其对世界的内部表示,处理感官输入,存储相关经验,并实时采取行动。在具身智能体的背景下,这些模块的整合确保了世界模型所做的预测是基于当前观察和智能体持续的经验。

世界模型提供了一个跨模态的基本统一原则。无论是在具身机器人技术中预测物理结果,预测屏幕上的视觉变化,还是推断文本中的语义关系,核心机制保持一致:生成关于状态在不同行动下如何演变的预测。这种跨模态能力解释了为什么人类能够毫不费力地在操纵物体、导航界面和处理语言之间转换——所有这些活动都由相同的底层预测架构驱动。未来的 AI 系统可以通过开发通过共同的预测框架连接这些传统上分离的领域的世界模型来实现类似的整合。

总之,世界模型与其他模块——记忆、感知和行动——之间的关系构成了 AI 系统中智能行为的支柱。每个模块都为一个预测、更新和行动的循环做出贡献,使智能体能够在动态和不确定的环境中有效运作。这些交互凸显了在设计智能体架构时需要采用整体方法,其中世界模型与感官输入、记忆系统和决策过程紧密交织。

4.5 总结与讨论

AI 世界模型的演变,从早期的认知洞察到先进的 AI 架构,强调了一个日益增长的认识,即真正的智能依赖于预测、模拟和想象的能力。与经典的强化学习(智能体仅通过试错交互进行操作)不同,世界模型赋予了远见——智能体可以在变化发生之前进行规划、预期和适应。这种认知建模的飞跃——无论是隐式的、显式的还是基于模拟器的——标志着在赋予机器灵活性、鲁棒性和跨任务泛化能力方面发生了重大转变。

世界模型的一个重要但经常被忽视的方面是它们在多个时间和空间尺度上的运作。人类心智模型无缝地整合了跨越毫秒(反射性反应)、秒(即时行动规划)、分钟到小时(任务完成)甚至年(生活规划)的预测 [366]。这种多尺度能力使我们能够同时预测即时的物理动态,同时保持连贯的长期叙事和目标。类似地,人类在不同尺度上处理空间信息——从细粒度的物体操纵到跨环境导航,再到抽象的地理推理。当前的 AI 世界模型通常在狭窄的时间和空间范围内表现出色,而人类认知在根据情境需求上下缩放预测方面表现出非凡的灵活性。这表明,真正通用的 AI 世界模型可能需要显式的机制来整合跨多个时间范围和空间分辨率的预测,根据任务需求动态调整模拟的粒度。

设计世界模型的一个核心挑战是复杂性与预测准确性之间的相互作用。如前所述,隐式模型,例如基于循环神经网络或 Transformer 的模型,提供了简单性和优雅性,但它们通常伴随着有限可解释性的权衡。模型的内部状态是一个不透明的潜在空间,使得难以强制执行领域约束或提供关于预测准确性的保证。虽然这类系统擅长捕捉高度复杂的关系和数据驱动的模式,但它们也存在过拟合或未能泛化到未见场景的风险。

相比之下,显式模型提供了更高的透明度和控制力。通过将状态转移和观测分解为独立的函数,我们能够更清楚地理解预测是如何形成的,并且可以更容易地整合结构化知识,例如物理定律或领域特定的规则。然而,这种方法也带来了其自身的挑战。首先,它通常需要大量的标记训练数据或模拟经验来准确捕捉环境动态。其次,即使是结构最良好的显式模型也可能难以处理需要细粒度、高维状态表示的复杂环境,例如在视频预测或机器人技术中。

基于模拟器的方法提供了一个有前景的替代方案,其中智能体依赖外部环境——无论是物理上存在的还是模拟的——来进行动态更新。这种方法避免了从头开始学习准确世界模型所固有的许多挑战,因为模拟器本身充当了状态转移和观测的“神谕”。然而,对模拟器的依赖也引入了局限性:模拟器通常无法捕捉真实世界动态的全部丰富性,并且维护或扩展可能在计算上成本高昂。此外,真实世界环境引入了噪声和可变性,这可能是纯粹学习或预先配置的模型可能遗漏的。随着 AI 智能体努力在开放式、不可预测的环境中执行任务,其世界模型的鲁棒性将受到模拟环境与实际环境之间差距的考验。

从这次讨论中浮现出的一个关键主题是泛化与专门化之间的权衡。世界模型越特定于某个特定领域或任务,它跨不同情境泛化的可能性就越小。像 MuZero [349] 和 Dreamer [350] 这样的模型例证了这一点:它们在特定环境(例如,雅达利游戏或机器人技术)中表现出色,但在转移到新的、未知的领域时需要仔细调整。相反,隐式模型——特别是那些利用大规模神经网络的模型——具有跨任务泛化的潜力,但这通常是以牺牲领域特定专业知识为代价的。

此外,将记忆与世界模型整合对于需要处理长期依赖和过去经验的智能体至关重要。虽然世界模型擅长基于即时输入预测下一个状态,但真正的智能行为通常需要对遥远的结果进行推理。长期记忆允许智能体存储关键的环境知识,确保短期预测基于对世界更广泛的理解。这种由世界模型介导的记忆、感知和行动的融合创建了一个反馈循环,其中预测塑造行动,而行动又反过来为未来的预测提供信息。

人类的类比仍然引人入胜:正如人类整合感官输入、记忆和内部模型来导航世界一样,智能智能体也必须通过其世界模型来结合感知、记忆和行动。随着领域的发展,很明显,一种整体方法——统一隐式、显式和基于模拟器的方法——可能是实现更鲁棒、更具泛化能力和更具适应性的智能体的关键。混合方法,如 AutoManual [108] 或基于发现的模型 [356] 中使用的方法,为融合学习到的知识与结构化规则和实时交互提供了令人兴奋的可能性,可能推动我们对世界模型的认知的边界。

展望未来,仍然存在一些开放性问题。我们如何确保世界模型在真实世界环境中表现出长期稳定性和可靠性?我们如何在处理动态环境中固有的不确定性的同时保持适应的灵活性?此外,随着智能体变得越来越复杂,我们如何设计既高效又能在日益复杂的任务中可扩展的系统,而不会产生巨大的计算成本?

总之,世界模型的未来在于它们能够在泛化需求与领域专业知识要求之间取得平衡。通过继续探索和完善模型简单性与复杂性之间、外部方法与内部方法之间的相互作用,我们正在朝着开发不仅能理解世界,而且能积极塑造其理解以在快速变化的现实中导航和适应的 AI 系统迈进。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐