ASTRA:基于自回归去噪的通用交互式世界模型
25年12月来自清华和快手的论文“ASTRA : General Interactive World Model With Autoregressive Denoising”。扩散transformer技术的最新进展使得视频生成模型能够从文本或图像生成高质量的视频片段。然而,能够根据过去的观察和动作预测长期未来情景的世界模型仍然有待深入研究,尤其是在通用场景和各种形式的动作方面。为了弥补这一差距,
25年12月来自清华和快手的论文“ASTRA : General Interactive World Model With Autoregressive Denoising”。
扩散transformer技术的最新进展使得视频生成模型能够从文本或图像生成高质量的视频片段。然而,能够根据过去的观察和动作预测长期未来情景的世界模型仍然有待深入研究,尤其是在通用场景和各种形式的动作方面。为了弥补这一差距,Astra,一个交互式通用世界模型,可以为各种场景(例如自动驾驶、机器人抓取)生成逼真的未来情景,并支持精确的动作交互(例如相机运动、机器人动作)。其提出一种自回归去噪架构,并使用时间因果注意机制来聚合过去的观察结果并支持流式输出。其用噪声增强的历史记忆来避免过度依赖过去的帧,从而平衡响应速度和时间一致性。为了实现精确的动作控制,其引入一种动作-觉察适配器,将动作信号直接注入到去噪过程中。其进一步开发一种动作专家混合模型,可以动态路由不同的动作模态,从而增强模型在各种现实世界任务(例如探索、操作和相机控制)中的通用性。Astra 实现交互式、一致且通用的长期视频预测,并支持各种形式的交互。
构建生成式世界模型是一个新兴领域,其中合成逼真且连贯的视频轨迹的能力可以作为理解和模拟世界底层动态的指标。随着视觉生成技术的快速发展(Rombach,2022;Blattmann,2023;Yang,2025;Brooks,2024;Wan,2025),众多视频生成模型应运而生,它们能够感知上下文线索并合成开放世界场景的高保真视频。这些进展为更广泛的世界模拟任务奠定基础,包括游戏引擎、自动驾驶和空间智能。
标准的文本-到-视频 (T2V) 或图像-到-视频 (I2V) 模型通常只能生成基于提示或参考图像的简短、独立的视频片段。它们缺乏生成连贯的长序列视频的能力,也无法对外部刺激(例如智体移动、视角变化或控制信号)做出自适应响应。由于缺乏这种响应能力,这些模型无法模拟真实世界的交互式因果动态。此外,现有的视频生成器受到扩散模型有限时间窗口的限制,这使得它们无法生成更长的视频序列。尽管最近的一些研究(Mao,2025;He,2025;Song,2025;Teng,2025)探索视频延续技术或结合自回归和扩散的混合框架,但它们往往难以在保持与历史帧的一致性与对新输入保持响应性之间取得平衡。此外,自回归生成过程会引入误差累积,导致长期预测的质量和连贯性下降。因此,尽管生成保真度取得令人瞩目的进展,但现有方法在很大程度上仍然是被动的——它们能够渲染视觉上引人注目的内容,但缺乏真正世界模拟所需的交互性、适应性和鲁棒性。
为了解决这些挑战,Astra,作为一个简单而强大的框架,用于构建高度交互式的世界模型。方法核心在于采用自回归去噪范式,如图所示,使用一个动作-觉察适配器增强预训练的视频扩散模型主干网络。这种设计既保留扩散模型的高生成质量,又能够对智体的动作进行精确控制,从而使模型能够生成连贯的未来帧,并对用户输入做出即时响应。世界建模的一个关键难点在于平衡长期时间一致性和动作响应性。为了解决这个问题,提出一种噪声掩码策略,在训练过程中对历史帧进行软性扰动。这降低视觉上下文的主导作用,迫使模型在预测下一个视频片段时同时整合历史信息和动作线索。此外,现实世界的交互环境涉及多种不同的动作模态——从相机控制和身体姿势到机器人操作。为了增强在这些场景下的通用性,设计一种动作专家混合模型(MoAE),其中特定模态的专家在可学习的路由机制下专注于不同的动作类型。这使得模型能够在单一框架内统一各种交互信号,使其广泛适用于具身机器人、沉浸式视频模拟和长程世界探索等场景。
如图所示,Astra 在动作驱动的视频预测方面取得最先进的性能,生成的序列具有高度的交互性,同时保持视觉连贯性和动态一致性。此外,该框架在不同任务和环境之间也展现出强大的泛化能力,凸显其作为下一代视觉世界模型基础的潜力。

Astra 是一种自回归去噪框架,能够实现真实世界视频预测,并具有高交互性、多功能性和一致性。核心思想是利用预训练文本-到-视频扩散模型的视觉生成能力,并通过使用先前生成的片段作为条件,引入分块自回归预测。Astra 的整体框架如图所示。
如上图所示,动作-觉察流Transformer(AFT)通过ACT-Adapter(右图)将动作信号注入到潜空间,该适配器通过编码器对动作特征进行对齐,并将其添加到每个Transformer块中。在训练阶段(左上图),模型通过流匹配学习预测下一个视频片段。在推理阶段(左下图),模型根据历史信息和动作序列自回归地生成视频片段,从而生成交互式视频。
其采用自回归去噪框架,该框架将自回归的长程建模能力与扩散模型的高保真合成能力相结合。
基于自回归去噪的交互式世界建模
现代视频生成模型(Brooks,2024;Wan,2025)在模拟逼真的视觉动态方面取得显著进展。这些模型受益于大规模预训练,使其能够隐式地获取部分 3D 空间感知、时间依赖性,甚至简单的物理模式(例如运动和力)的知识。然而,尽管这些模型具有令人印象深刻的逼真度,但它们在构建可以保存、交互和探索的真实世界场景方面仍然存在不足。这引出一个关键问题:文本-到-视频(T2V)模型真的是世界模型吗?世界模型的决定性特征是交互性——即能够根据任意时刻的任意动作输入动态调整生成过程的能力。虽然基于扩散的模型可以以全局提示或场景属性为条件,但这种条件机制无法实现细粒度的在线交互。为了解决这一局限性,转向自回归框架,该框架自然支持基于过去观察和当前动作的分步预测。与单次生成视频的扩散模型不同,自回归允许对动作输入做出即时响应,从而实现可控和自适应的生成。通过将这一特性与去噪模型的生成能力相结合,设计一种自回归去噪框架,该框架既实现高质量的合成,又实现交互式可控性。尽管之前的研究已经探索自回归和去噪的结合,但将这种混合范式应用于世界建模仍然并非易事。除了简单地将自回归和去噪串联起来之外,还必须仔细定义观察-动作接口,并设计机制来平衡长期一致性和即时响应之间的权衡。
给定之前的视频片段 z1:i−1,目标是建模下一个片段的条件分布 p(zi|z1:i−1)。原则上,这种预测可以通过各种生成模型来实现。为了确保高视觉保真度,选择利用预训练的视频流匹配模型 v_θ 作为预测器,利用其强大的视频合成能力。然而,将此类模型集成到交互式世界框架中会带来两大挑战:(1) 如何表示动作并量化其对未来视觉动态的影响;(2) 如何有效地将动作信号整合到预训练的扩散主干网络中,同时保持其生成质量。
由于目标是实现对动作输入 ai(例如,“向右转”之类的指令)的即时响应,因此动作的效果应该表现为对预测视频片段的直接变换。受光流公式的启发,将这种变换解释为视频特征的偏移,在扩散模型中,这对应于去噪器中的潜表示。因此,将动作视为扩散模型的附加条件信号,并将其直接应用于其潜特征空间。这一要求对现有的视频扩散架构提出挑战,这些架构通常由堆叠的 Transformer 块 (DiT) 组成,并依赖于交叉注意层来对齐视频潜表示和文本嵌入。此类机制并不天然适合建模由动作引起的细粒度偏移。为了克服这个问题,引入动作感知流 Transformer 适配器 (ACT-Adapter),它将预训练的视频 DiT 增强为一种自回归去噪模型,该模型能够将动作信号集成到潜空间变换中,从而在建模动作影响的同时保持骨干网络的生成能力。
如上图所示,引入一个动作编码器,将动作投影到与视频潜表示对齐的特征空间中。生成的动作特征通过逐元素相加的方式注入到每个块的去噪模型中,确保动作信号直接调制潜表示。为了最大限度地重用预训练知识,冻结流 Transformer 的所有参数,除了自注意层。此外,在每个自注意块之后插入一个轻量级适配器模块——一个初始化为单位矩阵的单层线性层。这使得模型能够逐步学习动作-觉察变换,同时保持预训练骨干网络的稳定性。对于历史条件 z_c = z1:i−1,采用帧维度条件策略,在流 Transformer 处理之前,沿时间维度将之前的片段与预测片段连接起来。结合动作 ai 和提示 c,去噪模型 v_θ 的完整条件集为 C = {z1:i−1, a1:i, c}。
为了增强动作的效果,提出一种无动作引导机制(AFG),其灵感来自于无类别引导(CFG)。在训练过程中,动作条件会被随机丢弃,迫使模型在没有动作输入的情况下进行预测。在推理阶段,计算一个引导速度场:
v_guided =v_θ(z_t, t, ∅) + s·(v_θ(z_t, t, a)−v_θ(z_t, t, ∅)),
其中 s 是引导尺度,z_t 是组合潜变量,∅ 表示无动作条件。这种技术增强动作效果,从而对用户输入产生更精确的响应。
带有噪声记忆的历史条件
在解决动作控制的挑战之后,转向另一个悬而未决的问题:平衡长期时间一致性与对动作的响应性。先前的研究表明,生成连贯的长视频需要以扩展的历史信息为条件。然而,存在一种权衡:增加历史长度可以提高时间一致性,但会削弱动作响应性。这种现象称为视觉惯性——模型倾向于过度依赖过去的视觉信息而忽略用户动作。这是因为现实世界的数据集主要包含平滑的运动,导致模型优先考虑连续性而不是突发的、由动作驱动的变化。为了缓解这种固有的矛盾,避免简单地缩短条件作用范围,而是寻求更优雅的解决方案。考虑到密集视觉输入和稀疏动作信号之间的不对称性,提出通过引入受控的扰动来降低视觉条件的支配地位。与 (Mao et al., 2025) 随机掩码视觉tokens不同,采用噪声作为掩码的策略:将随机噪声注入到条件视频中,以降低和模糊其信息内容。这种设计有两个优点。首先,它不需要对去噪模型进行架构修改或添加额外的可学习参数。其次,通过扰动视觉上下文,它可以防止模型直接复制干净的帧,并迫使模型将动作线索整合到生成过程中。扰动噪声独立于扩散噪声,因此推理可以使用干净的历史帧。通过这种训练策略,模型学会平衡对动作和历史的依赖,从而克服视觉惯性。为了进一步扩展有效的历史范围,采用 (Zhang & Agrawala, 2025) 的压缩方法,该方法保留第一帧,同时将中间历史压缩成紧凑的视觉tokens,从而在不淹没动作信号的情况下保留长程时间信息。
针对不同场景的动作专家混合模型
交互式世界建模通常涉及多模态输入,包括相机观测、身体姿态和离散动作指令。这些异构信号在结构和尺度上存在差异,使得单个模型难以捕捉其特征。为了解决这个问题,提出动作专家混合模型(MoAE),这是一个模块化框架,它将不同的模态路由到专门的专家,从而为去噪模型生成统一的动作表示。
如图所示,每个动作模态——连续相机姿态 a_cam、机器人姿态 a_rob 和离散键盘/鼠标命令 a_cmd——首先通过特定于模态的投影器 R_m 映射到共享动作空间,得到 a~i = R_m(ai_m),其中 m ∈ {cam, rob, cmd} 表示特定模态,i 是序列索引。然后,路由网络计算门控分数 gi = Router(a~i) 以选择前 K 个相关的专家。每个选定的专家 E_k(实现为独立的 MLP)将对齐的特征转换为与任务相关的表示。然后根据路由器的门控分数对专家输出进行聚合,生成最终的动作嵌入 ei = sum(gi_k E_k(a~i))。
然后将嵌入序列 e1:i 输入到流Transformer 中。为了同时考虑历史动作和当前动作,用一个额外的二进制指示符来增强 a~i 的动作空间,该指示符指定输入对应于过去动作还是当前动作。
将 MoAE 与历史条件下的潜输入相结合,使模型能够生成在时间上连贯且跨模态响应的视频片段。这种设计提高了模态特化能力、对新信号的可扩展性、通过仅激活相关专家提高效率以及整体通用性,从而能够在复杂的交互场景中实现高保真预测。
实验设置
数据集。为了训练模型,利用一系列多样化的数据集,涵盖自动驾驶、第一视角探索、多摄像头渲染和机器人控制,如表所示。具体而言,用 nuScenes (Caesar et al., 2020) 进行车辆姿态预测,使用 Sekai (Li et al., 2025a) 和 SpatialVID (Wang et al., 2025) 进行具有丰富相机标注的大规模真实世界视频处理,使用 Multi-Cam Video (Bai et al., 2025) 进行合成多视角序列处理,并使用 RT-1 (Brohan et al., 2022)(通过 Open X-Embodiment (O’Neill et al., 2024))进行机器人动作轨迹处理。所有视频都被调整大小并裁剪至 480p,动作标注通过插值每 4 帧进行时间对齐,以匹配视频 VAE 的时间压缩。这些数据集共同提供互补的动作信号(车辆、相机和机器人姿态),支持统一的动作感知世界建模。为了进行评估,构建 Astra-Bench,这是一个包含每个数据集中 20 个保留样本的基准测试集,旨在涵盖各种真实世界场景。
训练细节。用预训练的视频扩散模型 (Wan et al., 2025) 初始化模型,并在 8 个 H800 (80G) GPU 上进行训练,每个 GPU 的批处理大小为 1。优化使用 AdamW (Loshchilov & Hutter, 2017) 进行,学习率为 1e − 5,训练 30 个 epoch,大约需要 24 小时才能收敛。训练在 3D VAE 的潜空间中进行。在像素空间中,条件帧的数量从 [1, 128] 中随机采样,而目标帧的数量固定为 33。
评估指标。Astra-Bench 使用六个细粒度指标评估世界模型的两个关键方面:视觉质量和指令遵循(相机运动跟踪)。对于指令遵循,评估生成的视频是否准确反映预期的行走方向和相机运动。虽然像 MegaSaM(Li,2025b)这样的姿态估计工具可以自动化此过程,但相机运动预测的不准确性和量化误差限制它们的可靠性。因此,采用人工评估来确保评估的准确性。对于其余维度(即主体一致性、背景一致性、运动平滑度、美学质量和图像保真度),采用 VBench(Huang,2024)中的指标。所有测试视频均以 480×832 分辨率、20 FPS 帧率和 96 帧生成,每个模型使用 50 个推理步骤。
更多推荐
所有评论(0)