51c大模型~合集102

最近，来自多伦多大学、Snap Inc. 和 UCLA 的研究团队推出了全新的模型 ——Wonderland，它能够从单张图像生成高质量、广范围的 3D 场景，在单视图 3D 场景生成领域取得了突破性进展。Wonderland 的主要特点在于其精确的视角控制、卓越的场景生成质量、生成的高效性和广泛的适用性。Camera-guided 视频生成模型可以精确地遵循轨迹的条件，生成 3D-geometr

whaosoft-143

1890人浏览 · 2025-01-07 15:04:46

whaosoft-143 · 2025-01-07 15:04:46 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft/13035686

#Wonderland

单张图像探索3D奇境：让高质量3D场景生成更高效

本文的主要作者来自多伦多大学、Snap Inc.和UCLA的研究团队。第一作者为多伦多大学博士生梁汉文和Snap Inc.的曹军力，他们专注于视频生成以及3D/4D场景生成与重建的研究，致力于创造更加真实、高质量的3D和4D场景。团队成员期待与更多志同道合的研究者们交流与合作。

在人类的认知中，从单张图像中感知并想象三维世界是一项天然的能力。我们能直观地估算距离、形状，猜想被遮挡区域的几何信息。然而，将这一复杂的认知过程赋予机器却充满挑战。最近，来自多伦多大学、Snap Inc. 和 UCLA 的研究团队推出了全新的模型 ——Wonderland，它能够从单张图像生成高质量、广范围的 3D 场景，在单视图 3D 场景生成领域取得了突破性进展。

论文地址: https://arxiv.org/abs/2412.12091
项目主页：https://snap-research.github.io/wonderland/

技术突破：从单张图像到三维世界的关键创新

传统的 3D 重建技术往往依赖于多视角数据或逐个场景 (per-scene) 的优化，且在处理背景和不可见区域时容易失真。为解决这些问题，Wonderland 创新性地结合视频生成模型和大规模 3D 重建模型，实现了高效高质量的大规模 3D 场景生成：

向视频扩散模型中嵌入 3D 意识：通过向视频扩散模型中引入相机位姿控制，Wonderland 在视频 latent 空间中嵌入了场景的多视角信息，并能保证 3D 一致性。视频生成模型在相机运动轨迹的精准控制下，将单张图像扩展为包含丰富空间关系的多视角视频。
双分支相机控制机制：利用 ControlNet 和 LoRA 模块，Wonderland 实现了在视频生成过程中对于丰富的相机视角变化的精确控制，显著提升了多视角生成的视频质量、几何一致性和静态特征。
大规模 latent-based 3D 重建模型（LaLRM）：Wonderland 创新地引入了 3D 重建模型 LaLRM，利用视频生成模型生成的 latent 直接重构 3D 场景（feed-forward reconstruction）。重建模型的训练采用了高效的逐步训练策略，将视频 latent 空间中的信息转化为 3D 高斯点分布（3D Gaussian Splatting, 3DGS），显著降低了内存需求和重建时间成本。凭借这种设计，LaLRM 能够有效地将生成和重建任务对齐，同时在图像空间与三维空间之间建立了桥梁，实现了更加高效且一致的广阔 3D 场景构建。

效果展示 — 视频生成

基于单张图和 camera condition，实现视频生成的精准视角控制：

，时长00:06

Camera-guided 视频生成模型可以精确地遵循轨迹的条件，生成 3D-geometry 一致的高质量视频，并具有很强的泛化性，可以遵循各种复杂的轨迹，并适用于各种风格的输入图片。

更多的例子：

不同的输入图片，同样的三条相机轨迹，生成的视频：

，时长00:11

给定输入图片和多条相机轨迹，生成视频可以深度地探索场景：

效果展示 —3D 场景生成

基于单张图，利用 LaLRM, Wonderland 可以生成高质量的、广阔的 3D 场景：

(以下展示均为从建立的3DGS Rendering出的结果)

基于单张图和多条相机轨迹，Wonderland 可以深度探索和生成高质量的、广阔的 3D 场景：

，时长00:07

，时长00:12

，时长00:07

卓越性能：在视觉质量和生成效率等多个维度上表现卓越

Wonderland 的主要特点在于其精确的视角控制、卓越的场景生成质量、生成的高效性和广泛的适用性。实验结果显示，该模型在多个数据集上的表现超越现有方法，包括视频生成的视角控制、视频生成的视觉质量、3D 重建的几何一致性和渲染的图像质量、以及端到端的生成速度均取得了优异的表现：

双分支相机条件策略：通过引入双分支相机条件控制策略，视频扩散模型能够生成 3D-geometry 一致的多视图场景捕捉，且相较于现有方法达到了更精确的姿态控制。
Zero-shot 3D 场景生成：在单图像输入的前提下，Wonderland 可进行高效的 3D 场景前向重建，在多个基准数据集（例如 RealEstate10K、DL3DV 和 Tanks-and-Temples）上的 3D 场景重建质量均优于现有方法。
广覆盖场景生成能力：与过去的 3D 前向重建通常受限于小视角范围或者物体级别的重建不同，Wonderland 能够高效生成广范围的复杂场景。其生成的 3D 场景不仅具备高度的几何一致性，还具有很强的泛化性，能处理 out-of-domain 的场景。
超高效率：在单张图像输入的问题设定下，利用单张 A100，Wonderland 仅需约 5 分钟即可生成完整的 3D 场景。这一速度相比需要 16 分钟的 Cat3D 提升了 3.2 倍，相较需要 3 小时的 ZeroNVS 更是提升了 36 倍。

应用场景：视频和 3D 场景内容创作的新工具

Wonderland 的出现为视频和 3D 场景的创作提供了一种崭新的解决方案。在建筑设计、虚拟现实、影视特效以及游戏开发等领域，该技术展现了广阔的应用潜力。通过其精准的视频位姿控制和具备广视角、高清晰度的 3D 场景生成能力，Wonderland 能够满足复杂场景中对高质量内容的需求，为创作者带来更多可能性。

未来展望

尽管模型表现优异，Wonderland 研发团队深知仍有许多值得提升和探索的方向。例如，进一步优化对动态场景的适配能力、提升对真实场景细节的还原度等，都是未来努力的重点。希望通过不断改进和完善，让这一研发思路不仅推动单视图 3D 场景生成技术的进步，也能为视频生成与 3D 技术在实际应用中的广泛普及贡献力量。

....

#Back to Basics

何恺明重磅新作：Just image Transformers让去噪模型回归基本功

大家都知道，图像生成和去噪扩散模型是密不可分的。高质量的图像生成都通过扩散模型实现。

但有没有一种可能，「去噪扩散模型」实际上并没有做到「去噪」？

ResNet 之父，超70万引用的 AI 大神何恺明的新论文敏锐地捕捉了这一现象。

当扩散生成模型最初被提出时，核心思想本应是「去噪」，即从被破坏的图像中预测出干净图像。然而，在扩散模型的发展过程中出现的两个重要里程碑，却偏离了直接预测干净图像这一目标。首先，预测噪声本身（称为「ϵ-prediction」）在生成质量上带来了关键改变，并极大推动了这些模型的普及。随后，扩散模型被连接到基于流的生成方法，通过预测流速度（「𝒗-prediction」），这一量结合了干净数据与噪声。

流形假设（Manifold Assumption）认为，自然图像在高维像素空间中位于一个低维流形上。干净图像 𝒙 可以建模为处于流形上（on-manifold），而噪声 ϵ 或流速度 𝒗（例如 𝒗 = 𝒙 − ϵ）则本质上处于流形之外（off-manifold）。因此，让神经网络预测干净图像（即 𝒙-prediction）在本质上不同于让其预测噪声或带噪的量（即 ϵ/𝒗-prediction）。

当今的去噪扩散模型并不按照经典意义上的「去噪」方式工作，这些神经网络预测的是噪声或带噪的量。

预测干净数据与预测带噪量在本质上是不同的。根据流形假设（manifold assumption），自然数据应当位于一个低维流形上，而带噪的量则不在其上。

基于这一假设，何恺明新论文主张使用直接预测干净数据的模型，这使得看似容量不足的网络也能够在极高维空间中有效运行。

这一研究使去噪扩散模型回归本源，探索一种在原始自然数据上构建基于 Transformer 的扩散模型的自洽范式。

论文标题：Back to Basics: Let Denoising Generative Models Denoise
论文链接：https://arxiv.org/abs/2511.13720v1
Github 链接：https://github.com/LTH14/JiT

论文提出「Just image Transformers（JiT）」架构，仅使用简单的大 patch 像素级 Transformer 就能成为强大的生成模型，无需 tokenizer、无需预训练，也无需额外损失项。

该架构在 ImageNet 上实现了有竞争力的像素空间图像生成，在256×256分辨率下达到1.82 FID，在512×512分辨率下达到1.78 FID，且无需外部组件。

本文的工作朝着一种基于原生数据的自洽「Diffusion + Transformer」原则更进一步。超越计算机视觉领域，这种原则在其他涉及自然数据的领域（如蛋白质、分子或天气）中也同样具有潜在价值，因为这些领域的 tokenizer 通常难以设计。通过尽量减少特定领域的建模设计，作者希望源自计算机视觉的通用「Diffusion + Transformer」范式能够在更广泛的领域中发挥作用。

用于扩散的「Just image Transformers」

Just image Transformers

ViT 的核心理念是基于 Patch 的 Transformer（ToP），本研究的架构设计遵循这一哲学。

形式上，考虑 H×W×C 维的图像数据（C=3）。所有的 𝒙、 ϵ、𝒗 和

都共享这一相同的维度。给定一张图像，将其划分为大小为 p×p 的非重叠 patch（图块），从而产生一个长度为

的序列。每个 patch 是一个 p×p×3 维的向量。该序列经由线性嵌入投影处理，加上位置嵌入，并由一堆 Transformer 块进行映射。输出层是一个线性预测器，将每个 token 投影回 p×p×3 维的 patch。见图 3。

按照标准做法，该架构以时间 t 和给定的类别标签为条件。研究者使用 adaLN-Zero 进行条件化处理。从概念上讲，这种架构相当于直接应用于像素 patch 的 Diffusion Transformer (DiT)。

整体架构是 Just image Transformer（纯图像 Transformer），将其简称为 JiT。例如，在 256×256 的图像上研究 JiT/16（即 patch 大小 p=16），在 512×512 的图像上研究 JiT/32（p=32）。这些设置分别导致每个 patch 的维度为 768 (16×16×3) 和 3072 (32×32×3)。如此高维的 patch 可以通过 𝒙-prediction 来处理。

网络应该预测什么？

表 1 中总结了损失空间和预测空间的九种可能组合。针对每一种组合，研究者训练了一个 Base 模型（JiT-B），其每个 token 的隐藏层大小为 768 维。

研究者在表 2(a) 中研究了 256×256 分辨率下的 JiT-B/16。作为参考，他们在表 2(b) 中检查了 64×64 辨率下的 JiT-B/4（即 p=4）。在这两种设置中，序列长度是相同的 (16×16)。

观察结果如下：

𝒙-prediction 至关重要

在表 2(a) 的 JiT-B/16 中，只有 𝒙-prediction 表现良好，并且它在所有三种损失函数下均有效。在这里，一个 patch 是 768 维 (16×16×3)，这与 JiT-B 中 768 的隐藏层大小相吻合。虽然这看起来「刚好足够」，但在实践中，模型可能需要额外的容量，例如用于处理位置嵌入。对于 ϵ-prediction 或 𝒗-prediction，模型没有足够的容量来分离并保留噪声量。这些观察结果与 Toy 案例（图 2）中的观察结果相似。

作为对比，研究者检查了 64×64 分辨率下的 JiT-B/4（表 2(b)）。在这里，所有情况都表现得相当不错：九种组合之间的准确率差距是边缘性的，并不具有决定性。每个 patch 的维度是 48 (4×4×3)，远低于 JiT-B 中 768 的隐藏层大小，这解释了为什么所有组合都工作得相当好。研究者注意到，许多之前的潜在扩散模型具有类似的小输入维度，因此未曾暴露在此处讨论的问题中。

仅靠损失加权是不够的

该工作并不是第一个枚举相关因素组合的，之前的研究探索了损失加权和网络预测的组合。他们的实验是在低维的 CIFAR-10 数据集上使用 U-net 完成的。他们的观察结果与研究者在 ImageNet 64×64 上的结果更为接近。

然而，表 2(a) 在 ImageNet 256×256 上的结果表明，损失加权并非全部。一方面，无论损失空间如何，ϵ-prediction 或 𝒗-prediction 在表 2(a) 中都遭受了灾难性的失败，这对应于不同损失空间中的不同有效加权（如前所述）。另一方面，𝒙-prediction 在所有三种损失空间中都有效：虽然由 𝒗-loss 引起的损失加权更可取，但并非至关重要。

仅靠噪声水平偏移是不够的

先前的工作建议增加噪声水平对于高分辨率的基于像素的扩散是有用的。研究者在表 3 中使用 JiT-B/16 对此进行了检查。由于研究者使用 logit-normal 分布来采样 t，可以通过改变该分布的参数 µ 来偏移噪声水平：直观地说，将 µ 向负侧偏移会导致更小的 t，从而增加噪声水平（公式 (1)）。

表 3 显示，当模型已经表现不错时（此处为 x-pred），适当的高噪声是有益的，这与先前的观察结果一致。然而，仅调整噪声水平无法补救 ϵ-prediction 或 𝒗-prediction：它们的失败本质上源于无法传播高维信息。

根据表 3，研究者在 ImageNet 256×256 的其他实验中将 µ 设置为 -0.8。

增加隐藏单元并非必要

既然容量可能受到网络宽度（即隐藏单元数量）的限制，一个自然的想法是增加它。然而，当观测维度非常高时，这种补救措施既不符合原则也不可行。研究者表明，在 𝒙-prediction 的情况下，这是没有必要的。

在表 5 和表 6 中，研究者展示了 JiT/32 在分辨率 512 和 JiT/64 在分辨率 1024 下的结果，使用了成比例的大 patch 尺寸 p=32 或 p=64。这相当于每个 patch 为 3072 维（即 32×32×3）或 12288 维，远大于 B、L 和 H 模型的隐藏层大小。尽管如此，𝒙-prediction 仍然运作良好；事实上，除了按比例缩放噪声（例如，在分辨率 512 和 1024 时分别缩放 2× 和 4×）之外，它无需任何修改即可工作。

这一证据表明，网络设计可以在很大程度上与观测维度解耦，就像许多其他神经网络应用中的情况一样。增加隐藏单元的数量可能是有益的（如在深度学习中广泛观察到的那样），但这并非决定性因素。

瓶颈结构可能有益

更令人惊讶的是，研究者发现，反过来说，在网络中引入降低维度的瓶颈结构可能是有益的。

具体来说，研究者将线性 patch 嵌入层转换为低秩线性层，方法是用一对瓶颈（但仍是线性）层替换它。第一层将维度降低到 d'，第二层将其扩展到 Transformer 的隐藏层大小。这两层都是线性的，并充当低秩重参数化。

图 4 绘制了使用 JiT-B/16（原始 patch 为 768 维）时 FID 与瓶颈维度 d' 的关系。减小瓶颈维度，即使小到 16 维，也不会导致灾难性的失败。事实上，在大范围（32 到 512）内的瓶颈维度可以提高质量，FID 的提升幅度高达约 1.3。

从表征学习的更广阔视角来看，这一观察并非完全出乎意料。引入瓶颈设计通常是为了鼓励学习内在的低维表征。

算法

最终算法采用 𝒙-prediction 和 𝒗-loss，这对应于表 1(3)(a)。形式上，研究者优化：

算法 1 展示了训练步骤的伪代码，算法 2 是采样步骤的伪代码（欧拉求解器；可扩展到 Heun 或其他求解器）。为简洁起见，类别条件化和 CFG 被省略了，但两者都遵循标准做法。为了防止在计算 1/(1-t) 时出现除以零的情况，我们在计算此除法时会截断其分母（默认值为 0.05）。

更高级的 Transformer

通用 Transformer 的优势部分在于，当其设计与具体任务解耦时，它可以从其他应用中开发的架构进步中受益。这一特性通过使用任务无关的 Transformer 来构建扩散模型，巩固了其优势。

研究者整合了流行的通用改进：SwiGLU、RMSNorm、RoPE、qk-norm，所有这些最初都是为语言模型开发的。

研究者还探索了上下文内类别条件化：但不同于原始 ViT 仅向序列追加一个类别 token，他们追加了多个此类 token（默认为 32 个）。表 4 报告了这些组件的效果。

实验与对比

图 5：定性结果。使用 JiT-H/32 在 ImageNet 512×512 上生成的部分示例。

像素空间中的高分辨率生成

在表 5 中，研究者进一步汇报了基础规模模型（JiT-B）在 ImageNet 上分辨率为 512 以及甚至 1024 时的结果。研究者使用与图像尺寸成比例的 patch 大小，因此在不同分辨率下序列长度保持不变。单个 patch 的维度可以高达 3072 或 12288，而常见模型都没有足够多的隐藏单元来匹配这些维度。

表 5 显示，模型在不同分辨率下都取得了不错的性能。所有模型的参数量和计算成本相近，唯一的差别来自输入 / 输出 patch 的 embedding。本方法不会遭遇观测维度灾难。

可扩展性

将 Transformer 的结构与任务本身解耦的核心目标之一，是利用其潜在的可扩展能力。表 6 给出了四种模型规模在 ImageNet 256 与 512 分辨率下的结果（注意在 512 分辨率下，这些模型都没有隐藏单元数量超过 patch 维度）。模型规模和 FLOPs 在表 7 与 8 中列出：本文的模型在 256 分辨率下的成本与在 512 分辨率下的对应模型相似。

有趣的是，随着模型规模变大，256 与 512 分辨率之间的 FID 差距变得更小。对于 JiT-G，512 分辨率下的 FID 甚至更低。对于在 ImageNet 上的非常大的模型来说，FID 表现在很大程度上取决于过拟合，而 512 分辨率的去噪任务更具挑战性，使其不太容易过拟合。

以往工作的参考结果

作为参考，研究者们在表 7 与表 8 中与过往结果进行了比较，并标注了各方法所涉及的预训练组件。与其他像素空间方法相比，本文的方法完全依赖于朴素的、通用型的 Transformer。本文的模型计算友好，并避免了分辨率加倍时常见的二次计算成本增长（参见表 8 中的 FLOPs）。

表7：在 ImageNet 256×256 上的参考结果。评估指标为 5 万张样本的 FID 和 IS 。「pre-training」列列出了获得这些结果所需的外部预训练模型。参数量统计包括生成器和 tokenizer 的解码器（推理阶段使用），但不包括其它预训练组件。Giga-flops 的测量基于一次前向传播（不包含 tokenizer），并且大致与训练和推理过程中每次迭代的计算成本成正比。

表 8：在 ImageNet 512×512 上的参考结果。JiT 采用了更激进的 patch 大小，并能够在较小的计算量下取得强劲的结果。符号说明与表 7 类似。

本文的方法没有使用额外损失或预训练，这些可能会进一步带来性能提升。

总结

主要集中在概率建模的形式上，而对所使用的神经网络的能力（以及局限性）关注较少。然而，神经网络并非具有无限能力，它们更擅长利用自身容量去建模数据，而不是建模噪声。从这一视角来看，关于 𝒙-prediction 的发现是一个自然的结果。

论文的工作采用了一种极简且自洽的设计。通过减少特定领域的归纳偏置，研究者希望这种方法能够推广到那些难以获取 tokenizer 的其他领域。这一性质在涉及原始、高维自然数据的科学应用中尤为重要。

研究者设想，这种通用的「Diffusion + Transformer」范式，将有潜力成为其他领域的基础方法之一。

....

#PyTorch之父光速入职TML

离职Meta刚过一天，投身500亿估值独角兽

刚刚，才离开 Meta 不久的 Soumith Chintala 发布了一条推文，盛赞 Thinking Machines Lab（以下简称 TML）的人很了不起（incredible）。

与此同时，这位 PyTorch 之父也更新了自己的个人介绍，正式官宣加入 TML，并表示正在这家估值已达 500 亿美元的创业公司「创造新东西（Building new things）」。

其领英页面上目前更新的头衔仅仅是「技术人员」，所以我们目前还无从得知这个「新东西」会是什么。

根据 Chintala 离职 Meta 前的推文，他是在 11 月 17 日才正式离职。如今才刚过去一天（考虑到时区），这种无缝衔接的节奏，似乎印证了他此前所说的「不想再搞 PyTorch」的愿望确实非常迫切。

推文一发布，翁荔（Lilian Weng）等多位 TML 研究者/工作人员就留言表示了欢迎。

也有人第一时间用扎克伯格的苦瓜脸制作了迷因图：

总之，恭喜恭喜！

「我想做一些未知的小事」

这次火速入职其实早有端倪。在几天前发布的告别信中，Chintala 就曾深情地写道：「我不想一辈子都做 PyTorch。」他不想像 Python 之父或 Linux 之父那样，几十年被绑在同一个项目上。

对于下一站，他当时给出的线索是：「我想重新开始，做一些小而未知的事。我不想背负那种『如果从未尝试 Meta 之外的事情，会不会后悔的』假设性遗憾。」

现在看来，TML 正是他眼中那个值得从头开始的「未知之地」。而在他离职消息刚公布时，包括 Yann LeCun、Andrej Karpathy 在内的一众 AI 大佬都送上了祝福，Karpathy 更是祝愿他在下一个领域迎来属于自己的「黄金时代」。

从「被拒三次」到「顶级抢手」

Soumith Chintala 的职业生涯堪称一部「逆袭史」。这位来自印度、自称「数学很差」的工程师，早年求职之路充满坎坷。

据他在早前披露的故事中提到，他当年申请美国硕士时曾被 12 所大学拒绝，后来找工作时又接连碰壁。更有趣的是，他曾三次向 DeepMind（包括 Google）投递简历，却全部被拒之门外。

谁能想到，当年那个只能在亚马逊做测试工程师、甚至因为签证问题差点被迫离开美国的年轻人，在抓住 Yann LeCun 抛出的橄榄枝加入 FAIR 后，竟然带领团队从无到有打造出了 PyTorch 。

如今，他一手缔造的 PyTorch 已经在 AI 领域拥有超过 90% 的使用率，支持着百亿亿次级的训练，成为几乎所有主流 AI 公司的基础设施，是真正的「The Open Language of AI」。

带着这样的光环，他从 Meta 副总裁的高位离职加入 TML，不仅是职业生涯的又一次冒险，也证明了他早已不再是当年那个需要苦苦证明自己的「门外汉」。

PyTorch 的未来：没有「父」的日子

Chintala 的离开也让社区担心 PyTorch 的未来。对此，他在离职前做了周密的安排。

他表示，早在去年 11 月女儿出生时，他就开始规划离开。目前的 PyTorch 团队已经具备了真正的韧性，核心成员如 Greg、Alban、Ed 等人都已进入决策层，项目不再依赖他个人来解决棘手问题。

「这个项目已经不再需要我了，」他在告别信中自信地说道，「它驱动着正在重新定义智能的基础模型。」

如今，卸下「PyTorch 之父」重担的 Chintala，将在 TML 开启怎样的新旅程？正如他 X 简介说的那样：AI 只有在易用和开源时才是美味的（AI is delicious when it is accessible and open-source）。

期待他在 TML 烹饪出下一道「美味」。

参考链接

https://x.com/soumithchintala/status/1990861380740591621

....

#BraInCoRL

上下文元学习实现不微调跨被试脑活动预测

本文作者来自香港大学、香港中文大学、卡内基梅隆大学、哈佛大学、哥伦比亚大学等多所顶尖高校。其中论文第一作者是喻牧泉，来自香港中文大学，主要研究方向为计算神经科学与脑机接口。通讯作者为罗逸飞（Andrew F. Luo），香港大学助理教授。

人类高级视觉皮层在个体间存在显著的功能差异，而构建大脑编码模型（brain encoding models）—— 即能够从视觉刺激（如图像）预测人脑神经响应的计算模型 —— 是理解人类视觉系统如何表征世界的关键。传统视觉编码模型通常需要为每个新被试采集大量数据（数千张图像对应的脑活动），成本高昂且难以推广。尽管现有方法可利用预训练视觉模型（如 CLIP ）提取图像特征，并通过线性回归拟合脑响应，这类模型仍严重依赖大量被试内数据，在少样本甚至零样本条件下难以快速适应新个体，限制了其在临床、个性化神经科学等现实场景中的应用。

为解决这一挑战，BraInCoRL（Brain In-Context Representation Learning）提出一种基于元学习的上下文Transformer跨被试脑编码模型，仅凭少量示例图像及其对应的脑活动数据，即可无需微调地预测新被试在面对全新图像时的脑响应。该模型在多个公开fMRI数据集上表现出卓越的数据效率与泛化能力，甚至可跨扫描仪、跨协议进行有效预测。

本工作发表于 NeurIPS 2025 中的文章《Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex》。

论文链接：https://arxiv.org/abs/2505.15813
代码链接：https://github.com/leomqyu/BraInCoRL背景和创新

人类高级视觉皮层（如梭状回面孔区 FFA、海马旁位置区 PPA 等）对语义类别（人脸、场景、食物等）具有选择性响应。尽管这些区域在被试间位置大致一致，但精细的功能组织存在显著个体差异 —— 这使得为每个新被试构建高精度编码模型必须依赖大量功能磁共振成像（fMRI）扫描（通常需数千图像），成本极高。

当前主流方法多采用“图像特征 + 线性回归”的范式，虽在单个被试上表现良好，但无法跨被试泛化，必须为每位新用户重新训练模型。近期一些工作尝试引入 Transformer 架构建模多被试数据，但仍需在新被试数据上进行微调，未能真正摆脱对大量个体数据的依赖。

针对这一瓶颈，本文提出一种全新的建模范式：将每个脑体素（voxel）视为一个独立的、从视觉刺激到神经响应的响应函数。fMRI 测量仅提供该函数在有限输入下的带噪采样，而训练目标是从这些稀疏观测中推断出一个可计算、可泛化的映射。基于元学习和上下文学习范式，本文提出一种全新的BraInCoRL脑编码架构，在训练阶段从多被试数据中学习视觉皮层响应的共享结构；在测试阶段，仅需提供极少量（如 100 张）新被试的图像-脑响应对作为上下文，即可无需任何微调，直接生成适用于该被试的体素级编码器，并准确预测其对全新图像的神经活动。

方法细节

元学习 + 上下文学习：将每个体素视为一个任务

BraInCoRL 的核心思想是将每个体素的视觉响应建模为一个独立的函数推断任务，并将其置于元学习（meta-learning）与上下文学习（in-context learning, ICL）的统一框架下。

具体而言，对任意体素

（可来自任意被试），我们假设存在一个未知但可计算的映射函数：

其中

为输入图像，

为该体素对

的 fMRI 响应（即 beta 值）。

传统方法将此视为监督回归问题，需为每个新被试单独拟合

。而 BraInCoRL 将其重新定义为：

给定一个支持集（support set）

其中

是由冻结的视觉编码器（如 CLIP）提取的图像嵌入。学习目标是在不更新任何参数的情况下，直接推断出

，并用于预测新图像

的响应。

为实现这一目标，BraInCoRL 将每个体素视为一个元学习任务。在训练阶段，模型从多个被试的数千个体素中随机采样，通过 Transformer 学习跨被试、跨体素的视觉–神经映射共性，即学习一个通用的上下文推理算法。

在测试阶段，当面对一个全新被试时，仅需提供其少量（例如 100 个）图像–脑响应对（image-activation pair）作为上下文输入。模型通过前向计算，动态生成该被试专属的体素编码器

：

其中

即是 BraInCoRL 中的高级视觉皮层上下文 Transformer。

架构设计：

架构上，BraInCoRL 包含三个部分：

冻结的图像特征提取器（如 CLIP、DINO）将图像编码为图像嵌入（image embeddings）；高级视觉皮层上下文 Transformer：接收若干图像嵌入-脑响应对作为上下文，通过自注意力机制融合跨被试知识，并直接生成体素编码器的权重；轻量体素编码器：线性层，使用生成的权重对新图像预测脑响应。

此架构在训练时显式优化上下文学习能力，使模型学会如何从少量样本中推断出一个体素的响应函数。

三阶段训练策略：

预训练阶段：使用合成的体素权重与噪声构造大量虚拟体素任务，训练模型基础能力。
上下文扩展阶段：引入可变长度的上下文样本，提升模型对不同样本数量的适应能力。
有监督微调阶段：使用真实fMRI数据进一步优化，使模型适应生物脑响应特性。

实验结果

1、极高的数据效率在Natural Scenes Dataset （NSD）数据集上，BraInCoRL仅使用100张上下文图像，即在多个类别选择性脑区（如面孔、地点、身体、食物、文字）上达到与全量训练模型（9,000张图像）相近的解释方差，显著优于基于相同样本量的岭回归基线。同时在上下文数量变化的情况下，模型也表现出强大的稳定性。

2、跨数据集泛化在BOLD5000数据集（3T扫描仪，与训练集不同刺激协议）上，BraInCoRL同样表现出色，验证其跨设备、跨协议的鲁棒性。

3、语义聚类可视化揭示体素功能组织在 UMAP 可视化中，BraInCoRL 生成的体素权重呈现出清晰的语义聚类，人脸、场景、身体、食物等功能区域各自形成独立簇，且在多个被试间稳定复现。

4、语义对齐与可解释性通过分析 BraInCoRL 的注意力机制，我们可以了解视觉皮层的功能组织，并发现与体素选择相关的图像。例如分析 Transformer 最后一层注意力权重，发现模型在预测“面孔区域”响应时，会自动关注上下文中的人脸图像，验证了其语义合理性。

5、自然语言驱动的大脑探查将 CLIP 文本提示（如 “a photo of a person's face”）映射为图像嵌入，输入 BraInCoRL，即可零样本预测整个皮层的激活图。

结语

BraInCoRL 首次将上下文学习 (In-Context Learning) 引入计算神经科学，构建了一个无需微调、数据高效、可解释、支持语言交互的通用视觉皮层编码框架。该方法大幅降低了个体化脑编码模型的构建门槛，为未来在临床神经科学等数据受限场景中的应用开辟了新路径。

....

#PH-Reg

香港大学提出无需数据标记的ViT密集表征增强方法

本文共同第一作者为陈寅杰、颜子鹏，相关研究工作于香港大学科研实习期间完成；通讯作者 Andrew F. Luo 为香港大学助理教授。该工作已经被 NeurIPS 2025 会议接受为 Spotlight。

在视觉处理任务中，Vision Transformers（ViTs）已发展成为主流架构。然而，近期研究表明，ViT 模型的密集特征中会出现部分与局部语义不一致的伪影（artifact），进而削弱模型在精细定位类任务中的性能表现。因此，如何在不耗费大量计算资源的前提下，保留 ViT 模型预训练核心信息并消除密集特征中的伪影？

香港大学团队提出一种无需数据标记的 ViT 密集表征增强方法 PH-Reg（Post Hoc Registers），为该挑战提供了全新且高效的解决方法。该方法融合测试时增强（test-time augmentation）的去噪策略，去除教师模型密集特征中的伪影；并通过自蒸馏方法，在无需额外数据标记的条件下，得到能够输出无伪影密集特征的学生模型。

PH-Reg 具备良好的架构适配性，可灵活应用于 CLIP、DINOv2 等不同模型架构，能够高效去除密集特征的伪影，以此显著提升模型在下游任务中的性能表现。

论文标题：Vision Transformers with Self-Distilled Registers
论文地址：https://arxiv.org/abs/2505.21501
代码地址：https://github.com/0raiser0/PH-Reg

伪影破坏模型密集特征的语义一致性

尽管当前 ViT 模型基于数据驱动的注意力机制具备强大表示能力，但模型密集特征中存在的伪影往往会破坏其精细定位能力，而该能力对于语义分割等需高空间精度的任务而言至关重要。传统的优化方法，如在模型架构中添加 register tokens 并从头开始训练，需要消耗大量的计算资源，导致现有模型的性能提升既昂贵又耗时。

为解决上述问题，该论文提出一种高效的 PH-Reg 自蒸馏框架。该框架无需数据标记，且不再依赖 “从头开始” 的全量训练，而是通过巧妙结合测试时（test-time）密集特征增强和自蒸馏策略，仅优化学生模型中少量解锁的权重参数，即可实现无伪影的密集特征增强。

自蒸馏框架结合免训练实现去除伪影，无需数据标记实现无伪影的密集特征

1. 免训练去噪算法

研究发现，伪影并非相对于图像内容保持静态，因此当图像经过增强处理（如随机偏移、水平翻转等）时，密集特征中的伪影并不会以相同方式或幅度同步偏移。受此启发，此算法在无需梯度反向传播的情况下，能够生成去噪且无伪影的密集特征。

2. 自蒸馏框架

PH-Reg 采用自蒸馏策略，无需依赖数据标记，仅通过引入 register tokens，以最小侵入性方式对学生模型架构进行增强。在蒸馏过程中，仅对 register tokens、卷积层、位置嵌入（positional embeddings）及最后一个 Transformer 模块进行针对性更新，既最大限度保留了 ViT 模型预训练权重的核心信息，又显著节省了计算资源。

实验结果

本文应用该方法对多个 ViT 主干模型在多种密集特征预测任务上进行了系统验证，实现结果表明在不同模型与任务类型下均展现出一致且稳定的替身效果，体现了该方法的鲁棒性的广泛适用性。主要实验结果如下：

1. 开放词汇语义分割任务

在 VOC、COCO、ADE20K 等八个开放词汇语义分割基准数据集上，PH-Reg 在其中七个数据集上的性能超越了 MaskCLIP、SCLIP、NACLIP、ClearCLIP 等主流方法。
此外，与 DVT 这一相似去噪方法相比，PH-Reg 能为 MaskCLIP 与 NACLIP 带来更加显著的性能提升。

2. 线性探测任务

在语义分割任务中，该方法为所有 ViT 骨干模型带来了实质性性能增益。特别对于 CLIP 模型，其在 VOC21 数据集上的 mIoU 显著提升 5.04%，在 ADE20k 数据集上的 mIoU 提升 3.64%。
在深度估计任务中，该方法同样为预训练 ViT 骨干模型带来了稳定的性能提升，且仅通过引入 register tokens，便在参数量增加可忽略不计的前提下，取得了更优结果。

3. 高效的蒸馏过程

该方法的核心优势在于无需依赖基于梯度的神经场学习，因此采用单阶段蒸馏方式训练学生模型，与 DVT 相比，训练时间节省超 58.9%。
此外，DVT 在训练过程中需存储 1.4 TB 的神经场特征数据，而该方法可实时计算所有蒸馏目标，全程无需额外存储空间。

总结与展望

PH-Reg 框架包含了一种无需重训、即插即用的 ViT 模型去噪方案，在无需数据标记的条件下，通过自蒸馏能够高效修复 CLIP、DINOv2 等现有预训练模型中的伪影问题。

该研究不仅有效提升了 ViT 主干模型中密集特征的语义一致性，更为未来大规模视觉模型的快速微调与蒸馏机制探索提供了全新思路与研究方向。

....

#LoopTool

登顶开源SOTA！上交大&小红书LoopTool实现工具调用任务的「数据进化」

在过去两年，大语言模型 (LLM) + 外部工具的能力，已成为推动 AI 从 “会说” 走向 “会做” 的关键机制 —— 尤其在 API 调用、多轮任务规划、知识检索、代码执行等场景中，大模型要想精准调用工具，不仅要求模型本身具备推理能力，还需要借助海量高质量、针对性强的函数调用训练数据。

然而，现有数据生成与训练流程多数是 “静态” 的 —— 数据在训练前一次性生成，无法感知到模型能力的改变。模型在微调或强化学习过程中也无法为数据生成提供正向反馈。这不仅可能导致模型对已掌握的简单任务重复学习、浪费算力，同时留下一些难点样本长期缺乏优化；此外，很多现有流程依赖昂贵的闭源 API 生成与评估数据，开源替代往往带入大量噪声标签，降低训练效果。

为解决这一系列问题，上海交通大学与小红书团队提出了 LoopTool：一个自动的（autonomous）、模型感知（model-aware）、迭代式（iterative）的数据进化框架，首次实现了工具调用任务的数据–模型闭环优化。团队仅依靠开源模型 Qwen3-32B 作为数据生成器与判别器，在无闭源 API 依赖的情况下，让一个 8B 规模的 LoopTool 模型在工具调用表现上显著超越其 32B 数据生成器，并在 BFCL-v3 与 ACEBench 公开榜单上取得同规模模型的最佳成绩。与此同时，训练后的 LoopTool-32B 模型也在这两个榜单上登顶，达到了目前开源模型的最佳成绩，进一步验证了闭环迭代优化在不同模型规模上的通用性与有效性。

论文地址：https://arxiv.org/pdf/2511.09148
代码地址：https://github.com/Rednote-DeepExperience/LoopTool

背景：工具调用的瓶颈

论文指出，工具增强型 LLM 已经在多领域证明了其巨大价值，例如：API 调用，知识库查询、搜索引擎交互，面向代码和多模态的任务执行，复杂知识问答与数学问题。但要让模型稳健地使用工具则应持续提供与其当前水平匹配，高质量且多样化的训练数据。目前主流方法（如 ToolLLM、APIGen 系列）采用 “先生成全量数据，再训练模型” 的静态流程，缺乏对模型学习状态与短板的实时反馈，且现阶段对模型工具调用能力的学习也多采用监督式微调的方法，使模型难以泛化到更多的工具类别上。

进一步地如果使用闭源生成 / 评估模型（如 GPT 系列），API 成本高且难以大规模迭代；改用开源模型则往往引入标签错误（参数不全、函数调用不符合任务要求等），会造成训练信号噪声累积甚至误导。

方法：LoopTool 的闭环数据进化

LoopTool 的核心思想是：让数据生成、标签修正与模型训练形成一个自动化的闭环，并由模型性能反馈驱动下一轮数据优化。它包括种子数据构建与迭代优化闭环两大阶段，后者又细分为四个核心模块。

自动化工具增强数据构建（Seed Generation）

在迭代开始前，需要构建一个高质量、多样化的种子数据集。研究团队同时收集开源的各领域的 API 文献，同时也设计了两个分层树结构来辅助合成部分 API。合成过程基于语义树 (Context Tree) 和约束树 (Constraint Tree)，语义树描述领域主题与细化功能层级；约束树给出 API 结构限制，如命名规则、参数类型数量、返回格式等，通过在每棵树中独立抽取路径并合并，生成符合功能意图和结构规范的 API 定义，辅以规则验证确保生成 API 的一致性与语义完整性。

随后，这些 API 被置入多智能体工具调用对话生成 (Multi-Agent Tool-Use Dialogue Simulation) 流程线中。Planner Agent 基于抽样的工具子集规划整体任务流程与对话轮次；User Agent 根据规划在每一轮中发起请求、澄清条件、补充参数；Assistant Agent 结合当前上下文选择合适的工具，准备并执行具体的工具调用；Tool Agent 依据 API 规范模拟执行结果或者通过真实工具后端返回有效响应。所有生成的对话经规则验证（API 语法、参数类型、schema 匹配）以及 LLM 验证（Qwen3-32B 判断逻辑一致性与语境相关性）两阶段筛选，确保了首轮训练的种子集数据的质量和多样性。

基于闭环迭代的模型训练与数据演化

1. GRPO 强化学习训练 (GRPO Training for Tool Calling)

样本构造：对于每一个多轮对话样本，可以切分出多个工具调用的监督样本
, 其中
为工具集，
为上下文，
为目标调用。模型输出
包含推理轨迹 <think>...</think> 与工具调用的 JSON 结构 <tool_call>...</tool_call>。
奖励函数：二值奖励
，
指的是模型输出的工具名和参数与真实的数据标签完全匹配。
优化目标
。在训练过程中，为了鼓励模型的探索，这里设置 β 为 0。

2. 贪婪能力探测 (Greedy Capability Probing, GCP)

GRPO 在极易或极难样本上的更新幅度有限。为识别真正有学习价值的样本，GCP 直接用当前策略贪婪解码全数据集，判定出哪些样本：（1）已掌握（预测与标签匹配）；（2）失败（预测不匹配）；（3）边界（高困惑度 PPL，模型信心低），高 PPL 样本

被保留到下轮训练中，这些样本尽管预测正确，但接近决策边界，具有高学习价值。

3. 判别引导标签校验 (Judgement-Guided Label Verification, JGLV)

对于预测和标签不匹配的样本，使用开源模型 Qwen3-32B 作为评判者，比较模型预测与原标签孰优孰劣，分类为：（1）PRED_WRONG：模型预测错；（2）LABEL_WRONG：标签错，用模型预测替换标签；（3）BOTH_CORRECT：标签与预测均对，择高 PPL 保留；（4）BOTH_WRONG：全部丢弃。

不同于直接让 LLM 生成新标签，JGLV 以比较判别模式运行，减少生成噪声的风险，并随着模型水平的迭代提升，逐渐用更优预测反向优化训练集。

4. 错误驱动数据扩展 (Error-Driven Data Expansion, EDDE)

针对通过 JGLV 验证的错误种子样本，EDDE 模块进行结构保持与情境多样化生成，具体而言分析原始错误案例的结构模式与潜在误区，构造出保持任务难度但在情境和参数上经过多样化改造的新样本，这些合成数据经过与种子阶段相同的双重验证后，被并入下一轮训练集。

闭环迭代更新

新一轮训练的数据集因此由四部分组成：高困惑度样本、经过判别修正的错误种子样本、错误驱动生成的新数据以及原始种子集中未使用的子样本。这样的设计保证每一轮训练都在最新的模型能力诊断结果与高价值样本的驱动下进行，形成训练–测评–修正–扩展的完整闭环，不断推动模型将 “薄弱环节” 转化为新能力点。

实验结果

实验设置

研究团队选用了开源的 Qwen3-8B 模型以及 Qwen3-32B 模型作为迭代训练的基础模型，对于 8B 模型进行了 4 次迭代训练，对于 32B 模型进行了单次的迭代训练。为了系统性评测模型在工具调用方面的能力，选用了 BFCL-v3 和 ACEBench 作为主要的评测框架，同时也测试了训练后模型在编程，数学等问题上的通用能力以及在下游应用任务下的能力。

总体性能对比

BFCL-v3 涵盖了单轮、多轮调用场景，对模型的工具调用能力进行多维评估。在该榜单上，LoopTool-8B 总体准确率达到 74.93%，在所有 8B 规模开源模型中排名第一，较原始 Qwen3-8B 提升了 +8.59 个百分点，单轮调用准确率和 Live 执行准确率均为最高。更具代表性的是，该模型在总体性能上超越了用作数据生成与评判的 Qwen3-32B。LoopTool-32B 则在榜单上以 79.32% 的总体准确率位列第一，在单轮调用上达到最优成绩，且多轮场景表现也优异。

ACEBench 细分为 Normal, Sepcial, Agent 三类场景。评测结果显示，LoopTool-8B 以 73.4% 总体分数夺得同规模第一，比原始 Qwen3-8B 高出 6.3 分，在多类评测中均保持相对均衡优势。LoopTool-32B 达到了开源模型榜单中的第一，仅次于 GPT-4o 模型的表现。

迭代训练对比分析：持续挖掘弱点，避免停滞

为了进一步对比 LoopTool 迭代优化和静态训练的差别，研究团队设置了对照实验，对比 LoopTool-8B 与静态数据训练的结果。结果显示，在 BFCL-v3 中，LoopTool 的性能随迭代逐步提升，从初始模型到第 4 轮迭代持续增长，而静态训练在第二轮后即出现平稳，甚至因数据分布与模型能力越来越不匹配而下滑。

消融实验解析

为了评估 LoopTool 每个核心模块的贡献，论文在 BFCL-v3 基准上进行了多组消融对比，分别针对高困惑度样本筛选 (High-PPL)、判决引导标签校正 (JGLV)、以及错误驱动数据扩展 (EDDE) 模块。

高困惑度样本的重要性：移除高 PPL 样本 (w/o High-PPL) 会导致整体精度显著下降，尤其是多轮任务 (Multi-Turn)。即使用高 PPL 样本替代 EDDE 样本 (HighPPL-Replace) 也能维持接近完整配置的效果，验证了高 PPL 案例 —— 即模型低置信度、接近决策边界的样本 —— 在推动能力提升方面的重要作用。
标签校正的必要性：跳过 JGLV 校正 (w/o JGLV) 会显著降低精度，噪声或错误标签不仅无法被纠正，还会在被 EDDE 扩展成新样本后进一步污染训练数据，造成性能劣化。
错误驱动扩展的有效性：移除 EDDE (Remove EDDE) 同样导致准确率下滑。进一步测试发现，仅重复原始错误种子无法让模型有效掌握这类难点，而 EDDE 生成的结构相似但具备情境多样性的挑战样本，则能显著提升模型在这些 “困难样本” 上的表现。

模型规模扩展研究

作者还测试了 LoopTool 在不同规模模型上的表现，范围涵盖 0.6B 到 8B 参数量，并在 BFCL-v3 上进行两轮迭代训练。

结果清晰显示：模型规模越大，初始迭代 (Iteration 1) 和优化迭代 (Iteration 2) 阶段的准确率都更高。大模型在迭代中获得的绝对性能提升也更明显 —— 0.6B 模型仅提升 +0.70 个百分点，而 8B 模型则提升了 +1.80 个百分点。这种趋势源于 GRPO 强化学习依赖模型在探索中识别正确工具调用轨迹的能力。更大规模的模型往往能更早发现有效解法，从而更大化迭代式数据精炼的优势。

通用能力和下游任务：不仅是工具调用的高手

为了确保闭环优化不会让模型在非工具领域上的性能退化，作者在六个不同通用任务上测试并比较了 LoopTool 模型与原始模型：包括 MMLU-redux（综合常识）、IFEval（指令跟随）、LiveCodeBench（代码生成）、Math-500、AIME24、AIME25（数学竞赛题）。结果表明，LoopTool-8B 在全部任务上匹配或超越原模型，尤其在指令跟随 (+1.40) 与代码生成 (+3.84) 上提升显著，说明闭环数据演化不仅增强了工具调用，还提升了泛化推理与复杂任务处理能力。LoopTool-32B 则在数学任务上超越原始模型，在其他任务上与原始模型持平。

进一步地，团队借助了 DeepAgent 框架来评测模型在下游工具使用场景下解决现实问题的能力，包括以下评测基准:

API-Bank: 评估 LLM 在规划、检索和调用 API 方面的能力。涉及 73 个 API 工具，领域涉及账号管理、健康管理、智能家居、日程管理、金融管理等。
Spotify: RestBench 的一个子场景模拟了 Spotify 音乐播放器，包含 57 个问题和 40 个本地工具，平均需要 2.6 次连续 API 调用才能完成任务。
GAIA: 针对通用人工智能助手的复杂基准测试。要求 LLM 灵活运用广泛的通用工具集，包括网页浏览、代码执行、多模态处理和文件处理。

评测结果表明，LoopTool 工具使用能力的提升，有效地增强了对实际问题的解决能力。

结语

LoopTool 呈现了一个完全自动化、模型感知的闭环管道，将数据合成、标签校正以及基于 GRPO 的模型训练紧密结合，形成迭代优化循环，用于增强大型语言模型的工具使用能力。整个过程完全依赖开源模型完成数据生成与评估，不仅降低了成本，还确保了数据的高质量与多样性。在多轮迭代中，LoopTool 不断针对模型的薄弱点合成更具挑战性的样本，同时校正噪声标签，让训练数据随着模型能力的提升而动态进化。经过 LoopTool 迭代训练的 8B 与 32B 模型在公开的测评榜单中达到了新的 SOTA 成绩。LoopTool 不仅证明了模型闭环进化的有效性，也验证了开源框架在无依赖闭源 API 的条件下仍能达到乃至超越更大规模模型的表现。

#Argus1.0

如视发布空间大模型Argus1.0，支持全景图等多元输入，行业首创！

近来，世界模型（World Model）很火。多个 AI 实验室纷纷展示出令人惊艳的 Demo：仅凭一张图片甚至一段文字，就能生成一个可交互、可探索的 3D 世界。这些演示当然很是炫酷，它们展现了 AI 强大的生成能力。

但一个关键问题随之而来：这些由 AI 生成的世界中，绝大部分事物都是模型想象和虚构的。

如果我们不满足于「创造」一个虚拟世界，而是想把我们当下生活的这个真实世界（比如我们的家、办公室、工厂和城市）完整地变成一个可交互、可计算的 3D 世界呢？

这正是如视（Realsee）想要解答的问题。11 月 13 日，如视，这家数字空间及空间智能综合解决方案引领者，正式发布了其空间大模型 Argus 1.0，这也是全球首个（目前也是唯一一个）支持全景图输入，推测空间深度的大模型。它所代表的正是与虚拟生成截然不同的另一条路径：真实复刻。而这背后，正是「空间智能」相关技术不断演进的结果。

Argus 1.0 的目标不是「虚构」世界，而是「还原」真实的世界。它能够以毫秒级的速度，从一个场景下的单张或多张全景/普通图像中，推理出所有图像带绝对尺度的相机位姿、深度图和点图。

体验地址：https://h5.realsee.cn/argus?UTM=articlejqzx

从想象到测量，从虚拟到真实，Argus 1.0 的出现为 2D 图像通向 3D 真实空间架起了一座高速桥梁。这一技术突破意味着什么？它背后是如视怎样的技术积累与战略布局？

带着这些问题，我们与如视副总裁、首席科学家潘慈辉博士进行了深入对话，试图解码 Argus 模型的技术特性，及其在如视「空间智能」版图中的关键角色。

Argus 1.0 诞生的基石

如视的「数字空间-算法-行业应用」飞轮

任何强大模型的诞生都不是空中楼阁，Argus 1.0 也不例外。它根植于如视自 2017 年成立以来，围绕空间数字化所构建的深厚壁垒。在与潘慈辉博士的交流中，他提到了一个核心概念：「数字空间-算法-行业应用」的飞轮循环。而这个飞轮的核心驱动力，正是如视引以为傲的「真实空间数据库」。

核心资产：全球最大的三维空间数据库

作为最初脱胎于贝壳找房的事业部，如视从房产交易这一刚需场景切入，开启了大规模空间数字化的进程。截至 2025 年 9 月，如视已在全球范围内积累了突破 5300 万套的数字空间数据，覆盖面积超过 44 亿平方米。

潘慈辉解释道：「这个全球最大的真实空间数据库，是如视算法能力迭代的驱动器。」

海量数据的积累，持续驱动着空间智能 AI 算法的提升；而更强的系统能力，又为房产租售、家装家居、商业零售、工业园区等九大行业提供了高质量的解决方案；这些解决方案的落地，反过来又让如视得以触达更多元化的空间场景数据。

高质量空间数据：高精度、完备且一致

如果说 5300 万的量构筑了护城河的宽度，那么数据的质则决定了护城河的深度。潘慈辉强调，Argus 1.0 最大的技术突破，正得益于如视坚持自研硬件与算法的技术路线，这为其带来了「完备且一致」的高质量数据。

潘慈辉说：「我们的数据最大的特色，是在硬件设计和标定阶段就保证了最终采集的图像数据和激光点云数据是完备的，并且做到了像素级精度的对齐。」

不同于业内一些只有图像数据（缺乏绝对尺度）或只有激光数据（缺乏纹理）的方案，如视通过自研的伽罗华（Galois）系列 3D 激光扫描仪（其 P4 型号可直出 3 亿像素超高清全景图，图像与点云平均匹配误差小于 2 个像素），确保了每一份数据都是「所见即所得」的高精度数据对。这种在源头就严格标定、高度一致的真实数据，是 Argus 1.0 能够学习到准确深度和绝对尺度的前提，也是其远超其他算法的养料。

伽罗华 Galois P4 亮点概览

应用导向的底层创新

强大的数据飞轮背后，是一支由如视副总裁、首席科学家潘慈辉博士带领的研发团队。据潘博士介绍，如视从创立之初就坚持应用导向的底层技术创新，平均每年的研发投入都在 2 亿人民币以上。这份坚决的技术投入，造就了如视的技术实力和底气。

持续的耕耘也为如视带来了国际上的权威认可。在学术上，如视团队的科研成果近年来多次入选 ICCV、CVPR 等国际顶会；在产品设计上，旗下的伽罗华 3D 激光扫描仪、REALSEE G1 手机云台和庞加莱手持实景扫描仪接连斩获 2021、2022 及 2023 年德国红点产品设计大奖。如今，这些技术和产品已服务于 9 大行业超过 3000+ 品牌客户，团队也已积累了 600 余项国内外授权专利。

正是这个由海量高质数据、软硬一体化和持续研发投入共同驱动的飞轮，为 Argus 1.0 的诞生奠定了基础。

Argus 1.0

从「单眼」到「百眼」的空间智能突破

如视算法团队喜欢用希腊神话人物为产品命名。潘慈辉在采访中分享道，单目图像深度估计算法 Cyclops（希腊神话中的独眼巨人），寓意着从单张图像、单一视角就能推测世界的深度。

而此次发布的 Argus 1.0，名称则源自希腊神话中的「百眼巨人」。这一命名极富象征意义，它预示着如视的重建技术正从「单视」推测跨越到「多视」全局一致性的新阶段。

具体技术上，Argus 1.0 基于 Transformer 架构构建，是一个前馈式神经网络模型。该模型基于如视累积的近百万套真实高清空间数据（包含对玻璃、镜面等难题的处理）进行训练。得益于 Transformer 架构的通用性及其与大规模 3D 数据训练的协同效应，Argus 1.0 实现了兼容性、实时性与生成质量三大维度的行业突破。

兼容性：业界首个支持全景图输入的推测大模型

首先是输入端的巨大突破。Argus 1.0 是目前业界已知首个、也是唯一一个支持全景图作为输入的深度推测大模型。

Argus 1.0 甚至可以将 AI 生成的全景图转换成点云

同时，它还广泛兼容单张 / 多张普通照片乃至 AI 生成的图片，具备极强的多源适应能力。

Argus 1.0 也支持普通图转点云

全景图推测深度的能力之所以重要，在于它直指 VR 内容生产的核心痛点。潘慈辉表示，Argus 1.0 能够「显著降低搭建全景图到 VR 的处理流程的门槛，极大提高处理效率」，让低成本、高效率的 3D 空间复刻成为可能。

实时性与一致性：毫秒级的全局重建

如果说 Cyclops 时代还是两步走，即先用算法推测单张全景图的深度，再通过额外的算法模块计算位姿、进行拼接；那么 Argus 1.0 则实现了一步到位。

潘慈辉向我们揭示了 Argus 1.0 的核心架构创新：「此次 Argus 的能力，是将之前 Cyclops 的深度推测能力和后续的位姿计算能力，融合到了一个算法模块中。」

通过将深度推测和位姿计算进行联合训练，模型得以更好地挖掘多视图之间的关联性，从而在全局尺度上实现更高的点云一致性和位姿精度。这一增量式到全局式的转变，带来了效率的质变。如视的官方报告显示，Argus 1.0 的推理效率达到毫秒级，是首个实时的全景图全局重建系统，真正实现了「全流程无感知响应」。

高质量：源自真实数据的稳健性

Argus 1.0 的高生成质量，则要归功于前文提到的如视独有的高精度、带尺度、像素级对齐的真实数据库。

在 3D 重建领域，玻璃、镜面、毛坯房、长走廊等场景一直是行业公认的难题。潘慈辉指出，其根源在于「一般的激光设备对玻璃镜子的测距能力不足，导致大家在学习过程中没有较好的监督数据」。

而如视的解决方案是其多年技术的自然结果：「我们的业务场景中会有专门的工具对玻璃镜子进行标注，根据这些标注，我们修正原始的有问题的激光点云。使用修正后的激光数据进行训练就能很好地解决这一难题。」

正是得益于海量、多样化且经过精细业务标注的养料，Argus 1.0 充分学习并掌握了这些困难场景的特征，使其在面对传统重建难题时依然表现稳定，生成的 3D 空间显著优于其他缺乏真实尺度和对齐能力的方案。

如视的版图

空间智能「四层理论」与 AIGC 终局

Argus 1.0 的发布，不仅是一款工具的升级，更是如视「空间智能」版图中的一块关键拼图。潘慈辉在采访中详细阐述了团队的研发脉络：一个结合自身实践总结出的「空间智能四层理论」。

这四层理论清晰地定义了从数字化到智能化的演进路径：

第一层：物理数据（重建）：即 1:1 复刻；
第二层：潜藏数据（感知推理）：理解空间结构、语义；
第三层：融合数据（业务）：结合 CAD、IoT 等业务数据；
第四层：AIGC（生成交互）：解决开集问题，实现泛化交互。

在这个框架下，Argus 1.0 是第一层（重建）的集大成者。它打通的 2D 到 3D 能力已经可以赋能诸多应用场景。例如，它可以用于生成时下流行的动态锁屏空间壁纸；潘慈辉在采访中提到：「Argus 模型推测的深度精度更高，分辨率更高，且深度带有绝对尺度信息」，效果优于苹果披露使用的深度推测算法。

更进一步，如视透露，预计于明年初发布的 Argus 2.0 及后续版本可进一步用于实时渲染的 3DGS 模型和精细 Mesh 模型，为空间漫游提供沉浸式数字基底。通过与如视自研的空间智能算法结合，它还能驱动空间 CAD 自动生成、高精度语义分割及白模构建等高阶应用，实现从物理世界到数字空间，再赋能现实应用的闭环。

潘慈辉也明确指出，团队的下一个重点难题，正是攻克第四层：AIGC 层。他认为，许多应用的答案不在空间本身，而在于链接「空间之外的信息」，如行业规范、人类偏好等。他总结道：「我们希望当 AIGC 这一层实现后，利用其空间之外的信息能力，我们能更加快速、低成本地对接更多的行业，输出解决方案。」

开放生态

为空间智能行业铺路

在实现自身技术闭环的同时，如视也发挥自身优势，为整个空间智能行业的基础设施「铺路」。

长期以来，空间智能领域的研究与应用面临着一个瓶颈问题：空间智能的「基石」—— 高质量的空间数据，存在巨大缺口。而如视一直以来的技术成果，恰好为解决这一问题打开了一扇窗。

因此，为了加速整个空间智能应用领域的研究演进，如视计划于今年年底开放 10000 套的室内房屋数据集（其中 1000 套新房数据、9000 套 AI 设计数据），这同时也是目前最大规模的空间三维数据集。这种开放生态，让更多人能站在如视积累的真实数据之上进行创新，从而整个行业的发展。

迈向空间智能的 AIGC 终局

从最初服务于房产交易的 VR 看房，到如今赋能九大行业的空间智能；从打磨软硬一体的采集闭环，到发布毫秒级的深度推测大模型 Argus，如视的路径清晰地展现了其「数字空间 - 算法 - 行业应用」飞轮的强大势能。

Argus 1.0 的发布，不仅是如视的飞轮势能的一次集中爆发，它也是一个空间信息解码器，为 3D 视觉领域带来了一个低门槛、高效率、高质量的基础工具。它向行业证明了一条核心路径：海量、高精度、高一致性的真实世界数据是训练空间基础大模型的决定性优势。

这标志着空间智能领域一个新纪元的开始：以真实数据为基石，从底层重建走向顶层 AIGC 应用的路径被正式打通。

随着如视这样的空间数据巨头不断推动技术演进和生态开放，一个万物可计算、虚实深度融合的未来，正加速向我们走来。

....

#π*0.6

Physical Intelligence团队正式发布π*0.6

11月17号！Physical Intelligence团队正式发布，从经验中学习的VLA。

项目链接：https://www.pi.website/blog/pistar06
论文链接：https://www.pi.website/download/pistar06.pdf

VLA模型如何通过强化学习在现实部署中实现自我改进？提出了一种通用方法RECAP：基于经验与校正的优势条件策略强化学习，该方法通过优势条件机制实现VLA模型的强化学习训练。

该方法将异构数据整合到自我改进过程中，包括演示数据、在线收集数据以及在自主执行期间专家远程干预数据。RECAP方法首先通过离线强化学习预训练通用型VLA模型（记为），该模型随后可通过机器人现场数据收集实现下游任务的专业化性能提升。

实验表明，采用完整RECAP方法训练的模型能够实现家庭环境中的衣物折叠、可靠纸箱组装，以及使用专业意式咖啡机制作饮品。在部分高难度任务中，RECAP使任务吞吐量提升逾两倍，同时将任务失败率降低约50%。

熟能生巧

人类在掌握新技能时展现出卓越的灵活性，但要达到精熟境界必然需要从反复尝试中学习。借助VLA模型等通用机器人基础模型，可以通过提示词灵活设定通用型机器人的任务目标。但正如人类学习规律，这些模型同样需要通过反复练习才能臻于精通。

这意味着不仅要利用示范数据，更需要整合自主收集的实践数据，使策略能够修正实际部署中出现的错误，在人类远程操作水平之上提升执行速度与鲁棒性，并适应新的部署环境。虽然基于强化学习的自主实践理论基础早在数十年前就已确立，但要将这些原理融入通用且可扩展的机器人学习系统仍面临重大挑战：为大型模型设计可扩展且稳定的强化学习方法、处理来自不同策略的异构数据，以及在奖励信号可能模糊或随机的现实环境中建立具备奖励反馈的强化学习训练机制。

Physical Intelligence团队提出的RECAP方法，使VLA模型能够在训练流程的所有阶段：从预训练到自主执行数据训练，整合奖励反馈。RECAP旨在通过融合示范数据、自主实践与专家干预的通用方案解决这一难题。该方法以通用VLA训练方案为基础，整合多机器人平台的多样化数据：首先通过离线强化学习对VLA进行预训练，继而利用部署过程中收集的数据进行深化训练。

在部署阶段，机器人会根据每次任务执行结果获得（稀疏）奖励反馈，并可能获得修正错误的专家干预。训练过程遵循离线强化学习框架：训练用于评估任务完成进度的价值函数，进而利用该函数估算数据集中每个动作的优势值。通过让策略基于优势值得出的改进指标进行条件化训练，就能获得持续改进的策略。图1展示了RECAP方法的整体架构。

的应用与升级

可以运用RECAP方法来训练复杂任务的操作策略，例如折叠各类衣物、组装纸箱或制作意式浓缩咖啡。图2展示了部分任务的实景演示。该方法首先通过在多样化多任务多机器人数据集上进行离线强化学习，对模型进行预训练。该模型是基于版本针对强化学习场景的适配改进，而本身又是在基础上的升级版本，采用了更大型的主干网络和更多样化的条件机制。

新增了基于二值化优势值的条件调控能力，使其能够通过价值函数来优化策略。预训练完成后，系统会通过示范数据对进行下游任务微调，随后执行一轮或多轮机器人实地数据采集，借助强化学习持续优化模型。

实验表明，采用RECAP方法通过自主实践数据训练的模型，在部分高难度任务上实现吞吐量提升超过两倍，故障率降低两倍或更多。这使达到了实际可用的鲁棒性水平：目前成功部署该模型连续制作浓缩咖啡达13小时，在新环境中折叠陌生衣物持续运转超过两小时无中断，并在工厂场景中组装实际包装所用的纸箱。

尽管RECAP构建于已有研究中的独立算法模块之上，但其独特的组合方式具有创新性。研究首次证明，采用人类奖励反馈与干预相结合的通用强化学习方案，能够通过部署过程中收集的经验数据，显著提升VLA模型的鲁棒性与运行效率。

方法一览

方法主要包含数据采集、Value function训练、Advantage conditioned训练，通过重复执行这些步骤可优化基础VLA模型。

1. 数据采集。运行VLA执行任务，为每个任务周期标注结果标签（用于确定奖励值），并可选择引入人工干预来为早期迭代中的错误提供修正范例。

2. 价值函数训练。利用迄今收集的全部数据训练一个大型多任务价值函数（记为），该函数能检测故障并预估任务完成所需时间。

3. 优势条件训练。为通过价值函数改进VLA策略，在VLA前缀中加入基于价值函数推导优势值的最优性指标。这种"优势条件"训练方案提供了一种简单有效的方法，能从次优数据中基于价值函数提取更优策略。

图1展示了训练流程的整体结构，图3则提供了价值函数与策略架构的详细说明。预训练阶段包含在整个预训练数据集上执行上述(2)(3)步骤，该数据集包含来自大量任务和不同机器人的数万小时示范数据。随后通过重复执行(1)(2)(3)步骤，利用自主采集的数据持续优化VLA模型。

实现、模型和系统细节

基于VLA模型实例化 RECAP，是基于（的改进版本）。额外添加了二值化优势指标的条件化能力，使其适用于 RECAP 的强化学习训练。模型架构如图 3 所示，与VLA模型一起训练价值函数，该价值函数同样从视觉 - 语言模型初始化。通过 RECAP 训练该价值函数和VLA模型，得到最终模型。

模型

模型源自模型，能够通过流匹配灵活表示分块动作分布，并生成用于高级策略推理的中间文本。它采用知识隔离（KI）训练流程，在连续动作和离散化令牌（包括通过 FAST 离散化的动作）上对整个模型进行端到端训练，同时使用停止梯度防止流匹配动作专家影响模型的其他部分。预训练同时使用机器人数据和来自网络的视觉 - 语言联合训练数据。

在的基础上进行了多项改进：

1）预训练数据集增加了来自多个机器人平台的额外数据；

2）基础视觉 - 语言模型采用 Gemma 3 4B 模型；

3）动作专家的规模增加到 860M 参数；

从到：优势条件化

为了将优势信息纳入策略，这里扩展模型输入，添加额外的改进指标作为文本输入：当时输入 “Advantage: positive”，否则输入 “Advantage: negative”。优势指标出现在训练序列中ℓ̂之后、（离散化和连续）动作之前，因此仅影响动作对数似然。连续部分的对数似然无法精确计算，而是通过流匹配损失训练。流匹配和扩散（在某些假设下）可以密切关联，而扩散又可以解释为对数似然的下界，因此可以大致将离散动作的对数似然和连续动作的流匹配损失之和作为整体动作似然的下界：

奖励定义和价值函数训练

这里旨在开发一种通用且广泛适用的VLA模型经验训练方法，使用一种可应用于几乎任何任务的通用稀疏奖励定义。对于每个片段，我们获取一个指示片段是否成功的标签。从该片段级成功标签导出奖励，使得价值函数对应于（负的）任务成功完成所需的步数。这相当于以下奖励函数，其中 T 对应片段的最后一步，是一个大常数，确保失败片段具有低价值：

通过该奖励函数，训练价值函数预测成功片段的（负的）剩余成功步数，以及失败片段的大负值。在实践中，将预测值归一化到 (-1,0) 之间。由于在具有不同典型长度的异构任务上训练，我们基于任务的最大片段长度对每个任务的价值进行归一化。

价值函数与模型接收相同的语言输入，采用相同的架构设计，但使用更小的 670M 参数视觉 - 语言模型backbone（同样从 Gemma 3 初始化）。为了防止过拟合，还在少量多模态网络数据的混合集上联合训练价值函数。图 4 展示了价值函数在成功和失败片段示例上的可视化。

预训练、数据收集和经验学习

模型预训练阶段使用的数据混合大致遵循的方案，包括来自网络的视觉 - 语言数据、子任务ℓ̂预测以及来自多个机器人的多种任务的低级动作预测。需要注意的是，预训练后，能够执行的任务更多。

预训练时，首先在相同数据集上训练价值函数，预测每个任务成功完成的（负的）步数。然后估计每个任务的改进阈值 ε，用于确定基于优势的改进指标。这里将 ε设置为价值函数对任务ℓ预测值的 30% 分位数。随后，在VLA训练过程中实时运行价值函数，估计每个示例的 ₜₜ，并基于ε计算，作为输入提供给。由于价值函数使用相对较小的视觉 - 语言模型骨干网络（670M），视觉 - 语言 - 动作训练过程中价值函数的实时推理仅产生最小的额外成本。

预训练完成后，启动目标任务的策略改进循环。首先，使用目标任务ℓ的演示数据微调。在该阶段，将指标固定为 True，这一设置能带来略好的结果，因此该阶段对应监督微调（SFT）。

得到初始策略后，使用该策略收集额外数据并添加到中。部分片段完全自主收集，部分片段由专家遥操作员监控并可进行修正干预。这些修正可以向策略展示如何避免灾难性失败或从错误中恢复。然而，仅靠修正难以解决所有问题：自主执行过程中的干预是一种破坏性事件，即使是专家人类操作员也无法保证干预质量的一致性，也无法改进行为的细微方面（如整体速度）。因此，修正主要用于修复重大错误和克服探索挑战，而非提供最优监督（与理论不同）。对所有修正强制设置，但除此之外，无论是否提供修正，整个片段（包括自主部分和修正部分）都可选择添加到数据集中。

数据收集完成后，在为该任务收集的所有数据上微调价值函数，然后使用更新后的指标微调策略，采用与预训练相同的流程。价值函数和策略均从预训练检查点微调，而非上一轮迭代的策略和价值函数。我们发现这有助于避免多轮迭代中的漂移，尽管从最新模型持续微调也可能获得良好结果。根据需要，该过程可重复多轮迭代，但在实践中，即使一轮迭代也能带来显著的结果改进。

实验分析

在实验评估中，使用 RECAP 训练模型，完成一系列真实任务：制作浓缩咖啡饮品、折叠多种衣物和组装纸箱。每个任务需要多个步骤，持续时间 5 到 15 分钟，涉及复杂的操作行为（受限强力操作、液体倾倒、布料和纸板操作等），并需要快速执行以实现高吞吐量。在图 5 中展示了实验中使用的机器人平台。

评估任务

本工作的定量评估和对比使用三大类任务（含多个任务变体）：衣物折叠、咖啡制作和纸箱组装。任务总结如下（图 6 展示了任务示意图）：

衣物折叠（T 恤和短裤）：这是论文中的标准衣物折叠任务。该任务要求从初始状态可变的篮子中取出 T 恤或短裤，展平并折叠。成功标准为在 200 秒内将一件衣物折叠并堆叠在桌子的右上角。

衣物折叠（多种物品）：该任务要求折叠更多种类的物品，包括 11 种类型（毛巾、纽扣衬衫、毛衣、牛仔裤、T 恤、短裤、马球衫、裙子、长袖衬衫、袜子和内衣）。为了在实验中获得低方差指标，评估最具挑战性的物品之一：纽扣衬衫。但策略在所有物品上训练，配套视频展示了多种衣物的折叠结果。成功标准为在 500 秒内将目标物品正确折叠并堆叠在桌子上。

衣物折叠（目标失败模式消除）：该衣物折叠任务的最终版本采用更结构化的设置，用于消融实验。任务要求从固定展平的初始状态折叠一件橙色 T 恤。我们最重视成功率，严格的成功标准要求衬衫折叠正确，衣领始终朝上，且在 200 秒内完成。我们发现该任务有助于评估 RECAP 是否能通过强化学习消除特定的不良行为。

咖啡制作（双份浓缩咖啡）：使用商用浓缩咖啡机制作咖啡的长时程挑战性任务上评估策略。尽管咖啡制作策略能够制作多种饮品（拿铁、冰美式、浓缩咖啡等），甚至能用毛巾清洁浓缩咖啡机，但为了定量实验，我们专注于双份浓缩咖啡任务。该任务包括拿起咖啡手柄、将其放在研磨机上并研磨咖啡豆、压实咖啡粉、将咖啡手柄锁定到浓缩咖啡机中、取出杯子、萃取完整的浓缩咖啡，然后完成供应。成功标准为在 200 秒内完成所有步骤，且无严重错误（如掉落咖啡手柄或洒出咖啡）。

纸箱组装：在真实工厂部署场景中评估纸箱组装任务的策略。纸箱组装包括从展平的纸板开始折叠纸箱、贴上标签并将纸箱放置在箱子的指定位置。定量实验中，关注任务的所有部分，整体成功标准为在 600 秒内将展平的纸板组装成堆叠的纸箱。

对比和消融实验

图7展示了衣物整理（简单与多样化）、咖啡制作和纸箱组装任务中每小时成功完成的任务数量。误差线表示标准误差。该指标同时衡量任务成功率与执行速度。在所有实验场景中，采用RECAP方法的模型均实现吞吐量的大幅提升。RECAP对多样化衣物整理和咖啡制作任务的吞吐量提升最为显著，每小时成功完成次数增加超过两倍。

成功率。图8展示了包含标准误差的绝对成功率数据。RECAP方法的每个训练阶段都提升了各项任务的性能表现，其中最具挑战性的多样化衣物整理与咖啡制作任务实现了最大幅度的成功率提升，相当于故障率降低超过两倍。在纸箱组装任务中，展示了各子任务的独立成功率。RECAP方法在所有子任务中实现了最稳定（且最高）的成功率表现。

图9展示了经过多轮迭代的吞吐量提升情况。随着RECAP方法迭代次数的增加，两项任务的吞吐量均实现显著提升，其中纸箱组装任务呈现先降后升的显著改善趋势。

经过多轮迭代的成功率提升情况。衣物整理任务迅速达到最高成功率（但如图9所示，其吞吐量持续提升），而纸箱组装任务的成功率则保持持续增长。

不同策略提取方法的对比。在衣物整理任务中，采用RECAP方法的模型实现的吞吐量远超AWR和PPO方法，展现出显著优势。

故障模式消除。在衣物整理任务的变体（单件衣物但采用极严格成功标准）上应用RECAP方法。该方案能有效消除在严格标准下被视为失败的故障模式，因此我们的方法仅需相对较少数据即可有效调整策略行为。

一些讨论

RECAP仍存在若干改进方向：首先，当前系统尚未实现全自动化，仍需依赖人工标注进行奖励反馈、干预任务重置。一些研究已探索这些环节的自动化方案，而VLA本身也为实现更高效的数据采集提供了新思路，例如采用高层策略进行场景重置推理。其次，系统的探索机制相对简单，主要依靠策略随机性与人工干预进行贪婪探索。在初始模仿学习策略已具备合理行为的基础上这种方式可行，但采用更复杂的探索方法仍有较大提升空间。

最后，RECAP采用迭代式"离线"更新模式（收集数据批次→重新训练模型→循环），而非在数据采集同时实时更新策略与价值函数的全在线强化学习框架。当前选择是出于实施便利性考虑，将方法扩展为完全并行的在线强化学习框架是未来的重要研究方向。

更宏观地看，采用强化学习训练VLA或许是达到现实应用性能要求的最直接路径。VLA的强化学习面临诸多挑战：从大容量模型的大规模训练难度，到样本复杂性、自主性与延迟反馈等问题。虽然现有为小规模系统或LLM等"虚拟"领域设计的强化学习框架提供了良好基础，但要使其成为VLA训练的有效工具仍需更多探索。

参考

[1] : a VLA That Learns From Experience

....

#Phys-Liquid

华中科大与上交等提出Phys-Liquid：物理仿真加持，让机器人看透流体，「动态体积」一测一个准

最近，一项来自华中科技大学、上海交通大学、维也纳自然资源与生命科学大学以及纽约大学的研究，为机器人精准操控液体这个难题带来了新的突破。这项被人工智能顶级会议AAAI-26接收为Oral的论文，介绍了一个名为 Phys-Liquid 的数据集，以及一套全新的四阶段重建流程。

简单来说，这项工作通过高度逼真的物理仿真，教会了AI如何“看懂”透明容器中那些晃动、变形的液体，从而能准确估算它们的3D形状和体积。

论文标题: Phys-Liquid: A Physics-Informed Dataset for Estimating 3D Geometry and Volume of Transparent Deformable Liquids
作者团队: Ke Ma, Yizhou Fang, Jean-Baptiste Weibel, Shuai Tan, Xinggang Wang, Yang Xiao, Yi Fang, Tian Xia
主要机构: 华中科技大学，BOKU University，上海交通大学，National Key Laboratory of Multispectral Information Intelligent Processing Technology，纽约大学阿布扎比分校，纽约大学
论文地址: https://arxiv.org/abs/2511.11077
项目主页: https://dualtransparency.github.io/Phys-Liquid/
代码仓库: https://github.com/dualtransparency/Phys-Liquid-AAAI

背景：机器人“倒水”为何这么难？

在自动化实验室里，我们常常希望机器人能像人类一样，熟练地完成倾倒、吸取、混合液体等精细操作。但理想很丰满，现实很骨感。当机器人拿起一个装着透明液体的瓶子时，由于光线的折射和反射，以及容器晃动导致的液体表面复杂变形，AI很难准确判断里面到底有多少液体、形状是怎样的。

现有的很多3D数据集，比如Objaverse，大多只包含刚性的、不透明的物体。虽然也有一些关注透明容器的数据集（如ClearGrasp、DTLD），但它们要么忽略了里面的液体，要么只捕捉了液体在静止状态下的样子，缺乏容器运动时液体动态变化的数据。这极大地限制了算法在真实动态场景中的应用。

为了填补这一空白，研究团队提出了 Phys-Liquid。

Phys-Liquid：一个“动感十足”的物理仿真数据集

Phys-Liquid 是一个专门为透明、可变形液体量身打造的物理仿真数据集。它的核心亮点在于“物理仿真”和“动态变化”。

研究团队使用Blender内置的Mantaflow流体引擎，基于精确的纳维-斯托克斯方程（Navier-Stokes equations）来模拟流体动力学。这保证了液体在容器旋转、晃动时的行为（如表面张力、粘度、与容器壁的碰撞等）都无限接近真实世界。

仿真数据（上）与真实世界拍摄（下）的液体变形对比，角度高度吻合

这个数据集规模庞大且内容丰富，总共包含 97,200 张仿真图像和对应的3D网格模型。它覆盖了：

20种 常见的实验室容器。
5种不同的实验室场景。
8种光照条件。
5种液体颜色。
6种容器旋转模式。

数据集在液体颜色、光照、场景和旋转模式上的分布

为了全方位捕捉液体的形态，团队还设置了6个正交相机（上、下、前、后、左、右），从不同视角同时记录液体在81个连续时间帧下的变化。

（a）同一时刻从6个正交视角拍摄的不同物体

（b）不同时刻从6个正交视角拍摄的同一物体

四阶段重建流程：从一张图到三维体积

有了强大的数据集，还需要一套有效的算法来利用它。为此，研究者设计了一个四阶段的重建与估算流程，能从单张或多张输入图像中，重建出液体的3D网格并估算其实际体积。

四阶段重建与缩放流程概览

整个流程的输入是一张包含液体的图片，输出是经过真实世界尺度缩放后的液体3D网格。

第一步：液体分割。利用YOLO-world检测出液体的大致位置，再结合SAM2进行精确的像素级分割，得到液体的2D蒙版（Mask）。
第二步：多视角蒙版生成。这是非常关键的一步。仅有单个视角的蒙版不足以重建精确的3D模型。研究者利用在Phys-Liquid上微调过的多视角扩散模型CRM，从单个或多个输入蒙版“脑补”出其余5个正交视角的蒙版。
第三步：3D网格重建。将上一步生成的6个视角的蒙版和规范坐标图（CCMs）送入一个基于Triplane表示的卷积重建模型，解码生成液体的3D网格。
第四步：真实世界尺度缩放。重建出的网格只是一个相对模型，没有实际物理尺寸。这一步通过一个基于ViT的缩放模型，预测一个缩放因子，将网格对齐到真实世界的三维尺寸，从而可以计算出准确的体积。

实验结果：精度与一致性的双重胜利

为了验证Phys-Liquid数据集和这套重建流程的有效性，研究团队进行了一系列详尽的实验。

重建质量超越基线

与专门用于液体重建的基线方法Eppel et al.相比，新方法在各项指标上都取得了压倒性优势。例如，在均方根误差（RMSE）上，新方法（0.0192）远低于基线（0.0842），F-Score则从30.91%大幅提升至 75.38%。

与通用的单图3D重建方法InstantMesh和TripoSR相比，新方法同样表现出色，无论是在Chamfer距离、体积IoU还是F-Score上都全面领先。

从定性结果看，InstantMesh和TripoSR生成的网格与真实的液体形态有明显差异，而新方法（尤其是在扩散模型微调后）重建的形状则高度逼真。

从上到下：真实蒙版、未微调方法、微调后方法、InstantMesh、TripoSR的重建结果对比

微调与泛化能力

实验证明，在Phys-Liquid上对扩散模型进行微调，能显著提升多视角蒙版生成的准确性，平均IoU从74.38%提升到 90.05%。

微调前后生成的多视角蒙版对比

更令人惊喜的是，仅在Phys-Liquid仿真数据集上训练的模型，直接应用到真实的DTLD数据集上，依然取得了不错的性能，证明了该数据集和方法具有良好的泛化能力。

此外，该方法在处理连续视频帧时也表现出高度的时间一致性，重建结果稳定，抖动极小。

总结

总而言之，Phys-Liquid数据集及其配套的验证流程，为解决机器人感知透明、可变形液体这一长期挑战提供了强有力的工具。它不仅是一个高质量的基准，更是一个能够推动物理感知、多模态流体表示和物理感知视觉推理等前沿研究的基础平台。作者已经开源了代码和数据集，感兴趣的朋友可以上手试试。

....

#SenseNova-SI

商汤发布SenseNova-SI：800万数据“喂”出空间智能，多模态模型迎来新飞跃

论文标题: Scaling Spatial Intelligence with Multimodal Foundation Models
作者: Zhongang Cai, Ruisi Wang等
机构: 商汤研究院；南洋理工大学
论文地址: https://arxiv.org/abs/2511.13719
项目地址:

代码: https://github.com/OpenSenseNova/SenseNova-SI
模型: https://huggingface.co/collections/sensenova/sensenova-si

今天想和大家聊一篇非常有意思的新工作。我们都知道，现在的多模态大模型，像Qwen、InternVL这些，看图说话的能力已经非常惊人了。但如果让它们理解三维空间，比如判断物体远近、想象不同视角下的场景，它们往往就“犯迷糊”了。这其实是个挺关键的问题，毕竟，要让AI真正融入物理世界，空间智能（Spatial Intelligence）是绕不过去的一道坎。

最近，来自商汤研究院和南洋理工大学的团队，就针对这个问题，提出了一个简单又有效的解决思路：用海量、高质量的空间数据“喂”饱”这些大模型。他们推出了一个名为 SenseNova-SI 的模型系列，并通过构建一个包含800万（8M）样本的庞大数据集 SenseNova-SI-8M，系统性地提升了现有模型家族（包括Qwen3-VL, InternVL3, Bagel）的空间理解和推理能力。

这项工作不仅在多个空间智能基准上取得了目前最好的成绩，甚至在某些能力上超越了像GPT-5这样的顶级闭源模型，而且还为我们揭示了数据规模化如何催生模型的“涌现”泛化能力。

“缺课”的空间智能

为什么强大的多模态模型会在空间问题上栽跟头？研究者认为，一个核心原因在于训练数据的“偏科”。现有的大规模数据集中，与空间相关的样本不仅稀少，而且分布非常不均衡。模型见过的世界大多是“扁平”的，自然也就难以建立起立体的认知。

虽然近些年也出现了一些针对空间推理的数据集，但它们往往像散落的拼图，各自为战，缺乏一个统一的、系统的框架来全面地培养模型的空间能力。这就好比，我们教一个孩子认识世界，只给他看各种各样的照片，却很少让他亲身去体验远近高低，那么他对三维空间的理解必然是有限的。

商汤的这项研究，正是要给模型“补上”这关键的一课。他们没有去大改模型结构，而是选择了一条“数据为王”的路径，通过精心构建一个全面的空间智能数据集，来看看这条路到底能走多远。

SenseNova-SI-8M：一份空间智能的“满汉全席”

为了系统性地培养模型的空间能力，研究团队首先定义了一个空间能力的分类法，然后据此构建了SenseNova-SI-8M数据集。这个数据集不仅整合了约400万已有的开源数据，还额外扩充了450万个新样本，总数据量达到了惊人的800万。

这个数据集的设计非常有章法，它将空间能力分成了几个核心维度：

度量测量 (Metric Measurement, MM): 理解物体的物理尺寸和距离。
空间关系 (Spatial Relationship, SR): 推理物体间的方位，比如前后、左右、上下。
心理重建 (Mental Reconstruction, MR): 从有限的二维视角，脑补出三维物体的完整结构。
视角转换 (Perspective-Taking, PT): 这是本次着重补充的一个能力，也是之前被严重忽视的。它要求模型能够想象和推理在不同观察视角下，场景会发生怎样的变化。
综合推理 (Comprehensive Reasoning, CR): 需要结合多种空间能力进行多步推理的复杂任务。

特别值得一提的是，团队发现“视角转换”（PT）能力在现有数据集中极为匮乏，而这恰恰是高级空间智能的关键。因此，他们在SenseNova-SI-8M中着重扩充了这部分数据，涵盖了从简单的“视角对应”到复杂的“相机运动推理”和“异中心视角转换”等任务。可以说，这份数据集为模型提供了一份前所未有的、营养均衡的空间知识“大餐”。

“大力出奇迹”的实验结果

用SenseNova-SI-8M数据集训练后的模型效果如何？答案是：非常显著。研究团队在五个主流的空间智能基准测试（VSI-Bench, MMSI, MindCube, ViewSpatial, SITE）上进行了全面评估。

结果显示，SenseNova-SI模型家族（基于Qwen3-VL, InternVL3和Bagel）的表现全面超越了所有开源的通用模型和专门为空间智能设计的模型。例如，在VSI-Bench上，SenseNova-SI-InternVL3-8B取得了68.7%的SOTA成绩；在MindCube上更是达到了惊人的85.6%。

更令人惊讶的是，在某些特定的空间能力上，SenseNova-SI甚至超过了像GPT-5这样的顶级闭源模型。如上图所示，在“视角转换”这项能力上，SenseNova-SI的表现尤为突出，这直接证明了其数据集中针对性补强该能力的有效性。

同时，一个大家可能会关心的问题是：进行了空间能力的“特训”后，模型在其他通用的多模态任务上会不会“退步”？实验结果给出了否定的答案。在MMBench-En这个通用的多模态基准上，SenseNova-SI依然保持了84.9%的强劲性能，说明这种“补课”并没有以牺牲通用能力为代价。

意外之喜：数据驱动的泛化与思考

这项研究最有趣的地方，不仅仅是分数的提升，更在于它揭示的一些深刻现象。

涌现的泛化能力

研究者发现，当模型在某一种特定的空间任务上进行训练时，它竟然能在其他看起来完全不同的任务上获得能力提升。

例如，上图展示了两个例子：一个是在“第一人称-第三人称视角关联”任务上训练的模型，它在需要“想象第一人称视角”的任务上也变强了；另一个是在“相机旋转”任务上训练的模型，它泛化到了具有不同问题和视觉外观的其他任务上。这似乎在暗示，模型正在学习一种更底层的、可迁移的“元能力”（meta-tasks），而不仅仅是记住特定任务的解法。

对语言捷径的规避

研究还深入探讨了模型是真的“看懂了”，还是仅仅在利用文本中的“语言捷径”来猜答案。通过在去偏见的数据集上进行测试，以及在不提供图像的情况下进行“盲测”，结果表明，SenseNova-SI相比之前的模型，更依赖于真实的视觉信息来进行空间推理，而不是投机取巧。

对空间“思维链”的初步探索

对于复杂的推理任务，思维链（Chain-of-Thought, CoT）是一个热门的研究方向。研究团队也初步尝试了将CoT应用于空间推理，他们设计了一种更精细的CoT格式，能够一步步追踪物体、建立坐标系并进行推理。虽然取得了一定的效果，但他们也坦诚地指出，目前基于文本的CoT对于空间智能的提升是有限的，可能需要新的范式。

在下游任务中的应用潜力

为了检验SenseNova-SI增强的空间智能在实际应用中的价值，研究者将其作为一个“大脑”，直接用于控制一个虚拟机械臂来完成操作任务。

结果显示，在没有为该任务进行任何额外微调的情况下，搭载了SenseNova-SI的模型在处理包含“左边”、“顶部”、“后面”等丰富空间指令的任务时，成功率得到了大幅提升（+59.6%）。这直观地证明了，提升模型的空间智能，能直接赋能xxx智能体，使其更好地理解和执行物理世界中的任务。

总结

总的来说，商汤的这项工作以一种“大力出奇迹”的方式，清晰地证明了通过大规模、系统化的数据扩展，可以有效解锁多模态基础模型的空间智能。这项研究不仅提供了一系列强大的开源模型和宝贵的数据集，也为我们理解和构建更强大的通用人工智能，铺下了一块坚实的垫脚石。

....

#Uni-MoE-2.0-Omni

哈工大开源全模态模型Uni-MoE-2.0-Omni发布：仅用75B数据，训练效率和性能提升显著

最近，多模态领域又迎来了一位重磅开源选手。来自哈尔滨工业大学（深圳）的团队推出了他们“荔枝”系列模型的最新力作——Uni-MoE-2.0-Omni。作为一个完全开源的全模态大模型（Omnimodal Large Model, OLM），它在以语言为中心的多模态理解、推理和生成方面都取得了显著的进步。

最令人瞩目的是，这个模型在仅使用了约 75B tokens 的开源多模态数据进行训练的情况下，在85个基准测试中，有超过50个超越了使用 1.2T tokens 训练的强劲对手Qwen2.5-Omni，展现了惊人的训练效率和性能。

论文标题: Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
作者机构: 哈尔滨工业大学（深圳）
论文地址: https://arxiv.org/abs/2511.12609
项目主页: https://idealistxy.github.io/Uni-MoE-v2.github.io/
代码仓库: https://github.com/HITsz-TMG/Uni-MoE

那么，Uni-MoE-2.0-Omni 究竟是如何用更少的资源实现如此强大的全能表现的呢？让我们一探究竟。

背景：全模态模型的机遇与挑战

近年来，AI模型的发展趋势正在从单一模态走向多模态，甚至“全模态”（Omnimodality）。这意味着模型需要具备同时理解和处理文本、图像、音频、视频等多种信息的能力。这不仅更接近人类的感知方式，也为更复杂的应用场景打开了大门。

然而，要打造一个强大的全能模型，并非易事。它不仅需要处理海量、异构的数据，还要在保证强大能力的同时，控制住巨大的计算开销。如何在性能和效率之间找到最佳平衡点，是所有研究者面临的核心挑战。正是在这个背景下，Uni-MoE 2.0 团队给出了他们的答案。

核心架构：动态、高效、全能

Uni-MoE-2.0-Omni 的核心在于其精巧的架构设计，它基于 Qwen2.5-7B 这一强大的密集型模型，并从头构建了三个关键创新。

动态容量混合专家（MoE）架构

为了在效率和能力之间取得平衡，模型采用了一种新颖的动态容量混合专家（Dynamic-Capacity Mixture-of-Experts, MoE）设计。你可以把它想象成一个“专家委员会”，其中包含三种不同类型的专家：

共享专家（Shared Experts）：负责处理跨模态的通用知识，它们的规模较小，有助于高效的知识迁移。
路由专家（Routed Experts）：这些是特定领域的专家，比如专门处理音频（A）、视觉（V）或文本（T）信息的专家，它们经过相应数据的预训练，专业能力更强。
空专家（Null Experts）：这是一个非常巧妙的设计，它允许模型在判断某些信息（token）无需进一步处理时“跳过”计算，从而大大提升了计算效率。

这种动态的MoE层可以根据输入内容，智能地决定将信息路由给哪些专家进行处理，实现了计算资源的按需分配。

全模态 3D RoPE

为了更好地对齐和理解时空信息（比如视频），模型采用了全模态3D旋转位置编码（Omni-Modality 3D RoPE）。这种技术在自注意力层中确保了不同模态输入在时空维度上的对齐，让模型能更好地理解视频中的动态变化。

端到端生成能力

Uni-MoE-2.0-Omni 不仅能“看懂”和“听懂”，还能“创作”。通过引入特殊的图像和语音生成令牌，模型可以将语言指令无缝衔接到专门的生成模块，如用于图像生成的任务感知扩散Transformer（Task-Aware Diffusion Transformer）和用于语音合成的上下文感知MoE-TTS（Context-Aware MoE-TTS）模块，从而实现端到端的图像、文本和语音生成。

上图展示了上下文感知的MoE-TTS模块，它采用流式解码方法来处理长上下文，并能生成三种独特且可控的语音风格。

训练策略：渐进、迭代、强化

好的架构还需要高效的训练策略来激发其全部潜力。Uni-MoE 2.0 采用了一种精心设计的渐进式训练流程。

整个训练过程分为多个阶段，每个阶段都有明确的目标和数据配比，总训练量约为75B tokens。

跨模态预训练：首先，模型在大量的多模态数据上进行预训练，学习不同模态之间的基本对齐。
渐进式监督微调（SFT）：接着，通过激活特定模态的专家，并使用均衡的数据组合进行微调，逐步提升模型在各项任务上的性能。
迭代式强化学习：最后，团队采用了一种迭代的 GSPO-DPO 方法进行强化学习。这种方法稳定了基于MoE架构的RL训练过程，并显著提升了模型的推理能力。

此外，团队还精心策划了多模态数据的匹配技术，确保模型在训练的每个阶段都能学到最有效的信息。

实验结果：全面超越，优势显著

Uni-MoE-2.0-Omni 在多达85个基准测试中与当前最强的全模态模型进行了全面对比。

结果显示，Uni-MoE-2.0-Omni 取得了SOTA或极具竞争力的性能，尤其在以下几个方面表现突出：

全能理解能力

在需要同时理解多种模态输入的4个全能理解基准测试中，Uni-MoE-2.0-Omni 的平均分名列前茅，相较于Qwen2.5-Omni等模型有平均约7%的提升。

视频理解

在8个视频理解基准测试中，Uni-MoE-2.0-Omni 的平均性能同样达到了SOTA，平均提升约7%，尤其在长视频理解和时空推理方面优势明显。

音频与语音处理

模型在长语音处理方面也取得了突破，例如，在超过3分钟的长音频ASR（自动语音识别）任务中，词错误率（WER）降低了4.2%。在语音理解、音视频联合推理等多个任务上也展现了强大实力。

可控生成与底层图像处理

除了理解能力，模型在生成任务上也毫不逊色。在可控生成（如根据边缘图生成图像）和底层图像修复（如去雨、去噪）等5个指标上，其性能领先于其他全模态模型。

下图展示了模型在图像生成、编辑、可控生成和底层修复任务中的一些出色案例。

“思考”能力的加持

一个有趣的发现是，当模型在生成图像或回答问题前，先进行一步步的“思考”（step-by-step reasoning），其结果的准确性和忠实度会显著提高。例如，在没有“思考”的情况下，模型可能会生成“在冬天结出果实的苹果树”这种不合常理的图片。而经过思考引导后，模型能更好地理解提示的语义，生成更符合逻辑和现实的图像。

总结

总而言之，Uni-MoE-2.0-Omni 通过其创新的动态容量MoE架构、渐进式训练策略和精心策划的数据方案，成功地将一个强大的密集语言模型扩展成了一个高效且能力全面的开源全模态大模型。

这项工作最鼓舞人心的地方在于，它证明了通过更巧妙的架构和训练设计，我们可以在不无限堆积数据和算力的情况下，打造出性能顶尖的多模态AI。

....

#vivo万字综述探讨大模型手机自动化

手机「自动驾驶」大揭秘

1. 导言

你是否想过，手机能像电影钢铁侠中的智能管家贾维斯那般，一句话就能顺畅自如地完成各种复杂任务。

最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品，让曾经的幻想逐渐有了可行性。

vivo 作为行业领跑者，在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT"，能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢，被网友们称作 “i 人救星”。

图 1 vivo PhoneGPT订座（蓝心小V对话或小V主界面下滑探索-智能体广场体验）

与此同时，各大厂家似乎提前约好一样，都瞄准了一句话订咖啡的场景，颇有当年乔布斯使用初代 iPhone 订星巴克的即视感。更有坊间戏称，今年秋天第一杯咖啡是手机智能体帮你点的。

图 2 vivo PhoneGPT订咖啡（蓝心小V对话或小V主界面下滑探索-智能体广场体验）

尽管行业发展迅速，最近关于手机 AI 智能体的论文井喷，相关技术路线迭代发展迅速，但这一领域仍缺少系统性的综述。此次 vivo AI Lab 联合香港中文大学 MMLab 等团队发布了 “大模型驱动的手机 AI 智能体” 综述论文，该论文长达 48 页，覆盖 200 余篇文献，对基于大模型的手机自动操作智能体相关技术展开了全面且深入的研究，希望给学界和产业界作为参考，共同推进行业发展。

论文标题：LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
论文地址：https://www.preprints.org/manuscript/202501.0413/v1

1.1 研究背景

手机 GUI 自动化旨在通过编程模拟人类与手机界面的交互，以完成复杂任务，传统方法包括自动化测试、快捷指令和机器人流程自动化（RPA），但存在通用性、灵活性、维护成本、意图理解和屏幕感知等方面的挑战。
大语言模型（LLM）的出现为手机自动化带来了新的范式，基于 LLM 的手机 GUI 智能体能够理解自然语言指令，感知界面并执行任务，有望实现更智能、自适应的自动化操作。

1.2 研究目的

系统总结 LLM 驱动的手机 GUI 智能体的研究成果，包括框架、模型、数据集和评估方法。
分析 LLM 在手机自动化中的应用现状，探讨其优势和面临的挑战。
指出未来研究的方向，为相关领域的研究人员和从业者提供参考。

1.3 主要贡献

图 3 大模型驱动的手机 GUI 智能体文献分类

对 LLM 驱动的手机 GUI 智能体进行全面系统的综述，涵盖发展轨迹、核心技术和应用场景。
提出多视角的方法论框架，包括框架设计、模型选择与训练、数据集与评估指标。
深入分析 LLM 赋能手机自动化的原因，探讨其在自然语言理解、推理和决策等方面的优势。
介绍和评估最新进展、数据集和基准，为研究提供资源支持。
识别关键挑战并提出未来研究的新视角，如数据集多样性、设备端部署效率和安全问题。

2. 手机自动化的发展历程

2.1 LLM 时代之前的手机自动化

自动化测试：为解决手机应用复杂度增加带来的测试难题，经历了从随机测试到基于模型的测试、基于学习的测试，再到强化学习测试的发展，但仍面临测试覆盖范围、效率、成本和模型泛化能力等挑战。
快捷指令：如 Tasker 和 iOS Shortcuts，通过预定义规则或触发条件实现任务自动化，但范围和灵活性有限。
机器人流程自动化（RPA）：在手机上模拟人类执行重复性任务，但在处理动态界面和脚本更新方面存在困难。

2.2 传统方法的挑战

通用性有限：传统方法针对特定应用和界面，难以适应不同应用和动态环境，缺乏灵活性和上下文适应能力。
维护成本高：编写和维护自动化脚本需要专业知识，且随着应用更新，脚本需频繁修改，耗时费力，入门门槛高限制了用户使用。
意图理解能力差：基于规则和脚本的系统只能执行预定义任务，难以理解复杂自然语言指令，无法满足用户多样化需求。
屏幕 GUI 感知能力弱：传统方法难以准确识别和交互不同应用中的各种 GUI 元素，对动态内容和复杂界面的处理能力有限。

2.3 LLM 推动手机自动化

图 4 大模型驱动的手机 GUI 智能体发展里程碑

发展历程与里程碑：LLM 在手机自动化中的应用不断演进，通过自然语言理解、多模态感知和推理决策能力的提升，逐步实现更复杂任务的自动化。
LLM 解决传统挑战的方式
上下文语义理解：从大量文本语料库学习，理解复杂语言结构和领域知识，准确解析多步骤命令。
屏幕 GUI 多模态感知：利用多模态感知能力，统一文本和视觉感知信息，实现对屏幕元素的准确定位和交互。
推理和决策制定：基于语言、视觉上下文和历史交互进行复杂推理、多步骤规划和上下文感知适应，提高任务执行成功率。

2.4 新兴商业应用

Apple Intelligence：2024 年 6 月推出，集成 AI 能力到 iOS、iPadOS 和 macOS，通过智能总结、优先级通知和上下文感知回复增强通信、生产力和专注功能，保障用户隐私和安全。
vivo PhoneGPT：2024 年 10 月推出，OriginOS 5 操作系统中的个人 AI 助手，具备自主拆解需求、主动规划路径、实时环境识别和动态反馈决策的能力，能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢等任务。
Honor YOYO Agent：2024 年 10 月发布，适应用户习惯和复杂指令，通过语音或文本命令自动化多步骤任务，如购物比价、自动填表、定制饮品和会议静音，提升用户体验。
Anthropic Claude Computer Use：2024 年 10 月推出 Claude 3.5 Sonnet 模型的 Computer Use 功能，使 AI 智能体能像人类一样操作计算机，观察屏幕、移动光标、点击按钮和输入文本，改变人机交互范式。
Zhipu.AI AutoGLM：2024 年 10 月推出，通过简单命令模拟人类操作智能手机，如点赞评论、购物、订票和点餐，能导航界面、解读视觉线索并执行任务，展示 LLM 驱动的手机自动化在商业应用中的潜力。

3. 手机 GUI 智能体框架

3.1 基本框架

图 5 大模型驱动的手机 GUI 智能体基础框架

感知模块
UI 信息：包括 UI 树（如 DroidBot - GPT 将其转换为自然语言句子）、截图（如 AutoUI 依赖截图进行 GUI 控制）、Set - of - Marks（用于标注截图，如 MM - Navigator）和 Icon & OCR 增强（如 Mobile - Agent - v2 集成 OCR 和图标数据）。
手机状态：如键盘状态和位置数据，用于上下文感知操作。
大脑模块
存储：包括记忆（如记录历史屏幕任务相关内容）和知识（来自预训练知识、领域特定训练和知识注入）。
决策制定：包括规划（如 Mobile - Agent - v2 的规划智能体生成任务进度）、推理（可以利用 Chain - of - thought 增强推理能力）和反思（如 Mobile - Agent - v2 的反思智能体评估决策并调整）。
行动模块：通过执行触摸交互、手势操作、输入文本、系统操作和媒体控制等类型的动作，实现与手机 UI 和系统功能的交互，确保决策转化为设备上的实际操作。

3.2 多智能体框架

图 6 多智能体框架分类

角色协调多智能体框架（Role-Coordinated Multi-Agent Framework）：如 MMAC - Copilot 中多个具有不同功能的智能体协作，包括规划、决策、记忆管理、反思和工具调用等，通过预定义工作流程共同完成任务。
基于场景的任务执行框架（Scenario-Based Task Execution Framework）：如 MobileExperts 根据特定任务场景动态分配任务给专家智能体，每个智能体可以具有针对特定场景（如购物、编码、导航）的能力，提高任务成功率和效率。

3.3 计划 - 然后 - 行动框架（Plan-Then-Act Framework）

如 SeeAct、UGround、LiMAC 和 ClickAgent 等工作展示了该框架的有效性，通过先生成动作描述，再根据动作描述定位到要操作的控件位置，提高了任务执行的清晰度、可靠性和适应性，允许独立改进规划和 UI 定位模块。

4. 用于手机自动化的大语言模型

图 7 模型分类

4.1 提示工程（Prompt Engineering）

图 8 提示词设计

纯文本提示词（Text-Based Prompt）：主要架构为单文本模态 LLM，通过解释 UI 树信息进行决策，如 DroidBot - GPT、Enabling Conversational 等，在不同应用中有一定进展，但存在对屏幕的全局信息理解利用不足等问题。
多模态提示词（Multimodal Prompt）：多模态大语言模型（MLLM）集成视觉和文本信息，通过截图和补充 UI 信息进行决策，包括基于 SoM 输出索引方法（如 MM - Navigator、AppAgent）和直接坐标输出方法（如 VisionTasker、Mobile - Agent 系列），提高了准确性和鲁棒性，但在 UI 定位准确性方面仍面临挑战。

4.2 基于训练的方法（Training-Based Methods）

GUI 任务专用模型架构（Task Specific Model Architectures）
通用目的：如 Auto - GUI、CogAgent、ScreenAI、CoCo - Agent 和 MobileFlow 等，旨在增强直接 GUI 交互、高分辨率视觉识别、全面环境感知和条件行动预测能力，以应对不同应用和界面的任务。

图 9 不同的 UI 理解任务

特定领域：专注于屏幕理解任务，包括 UI 定位（如 LVG、UI - Hawk）、UI 引用（如 Ferret - UI、UI - Hawk）和屏幕问答（如 ScreenAI、WebVLN、UI - Hawk），通过特定技术提升智能体在复杂用户界面中的交互能力。
监督微调（Supervised Fine-Tuning）
通用目的：通过在特定任务数据集上微调，增强模型在 GUI 定位、OCR、跨应用导航和效率等方面的能力，如 SeeClick、GUICourse、GUI Odyssey 和 TinyClick 等工作。
特定领域：应用于特定任务，如 ReALM 解决参考分辨率问题，IconDesc 用于生成 UI 图标替代文本，提高了模型在特定领域的性能。
强化学习（Reinforcement Learning）
手机智能体：如 DigiRL、DistRL 和 AutoGLM，通过强化学习训练智能体适应动态手机环境，提高决策能力和成功率，AutoGLM 还实现了跨平台应用。
网页智能体：ETO、Agent Q 和 AutoWebGLM 利用强化学习使智能体适应复杂网页环境，通过学习交互和改进决策，提高在网页导航和操作任务中的性能。
Windows 智能体：ScreenAgent 通过强化学习使智能体在 Windows 环境中与真实计算机屏幕交互，完成多步骤任务，展示了在桌面 GUI 自动化中的潜力。

5. 数据集和基准

5.1 相关数据集

表1 数据集

早期数据集：如 PixelHelp 将自然语言指令映射到 UI 动作，UIBert 通过预训练提升 UI 理解，Meta - GUI 收集对话与 GUI 操作痕迹，UGIF 解决多语言 UI 指令跟随问题，MoTIF 引入任务可行性和不确定性。
大规模数据集：Android In The Wild（AITW）和 Android In The Zoo（AITZ）提供大量设备交互数据，GUI Odyssey 用于跨应用导航训练和评估，AndroidControl 研究数据规模对智能体性能的影响，AMEX 提供详细注释增强智能体对 UI 元素的理解。

5.2 基准

表 2 Benchmarks

评估方法（Evaluation Pipelines）：MobileEnv 提供通用训练和评估平台，AndroidArena 评估 LLM 智能体在复杂 Android 环境中的性能，LlamaTouch 实现移动 UI 任务的设备端执行和评估，B - MoCA 评估不同配置下的移动设备控制智能体，AndroidWorld 提供动态可参数化任务环境，MobileAgentBench 为移动 LLM 智能体提供高效基准，AUITestAgent 实现自动 GUI 测试，AndroidLab 提供系统框架和基准。
评估指标（Evaluation Metrics）
任务完成指标：如任务完成率、子目标成功率和端到端任务完成率，评估智能体完成任务的有效性。
行动执行质量指标：包括行动准确性、正确步骤、正确轨迹、操作逻辑和推理准确性，衡量智能体行动的精确性和逻辑性。
资源利用和效率指标：如资源消耗、步骤效率和反向冗余比，评估智能体资源利用效率。
任务理解和推理指标：如 Oracle 准确性、点准确性、推理准确性和关键信息挖掘能力，考察智能体的理解和推理能力。
格式和合规性指标：验证智能体输出是否符合格式约束。
完成意识和反思指标：评估智能体对任务边界的识别和学习能力。
评估准确性和可靠性指标：确保评估过程的一致性和可靠性。
奖励和整体性能指标：如任务奖励和平均奖励，综合评估智能体性能。

6. 挑战与未来方向

6.1 数据集开发与微调可扩展性

现有数据集缺乏多样性，未来需开发大规模、多模态且涵盖广泛应用、用户行为、语言和设备类型的数据集。
解决微调在域外性能方面的挑战，探索混合训练方法、无监督学习、迁移学习和辅助任务，以减少对大规模数据的依赖。

6.2 轻量级和高效的设备端部署

克服移动设备在计算和内存方面的限制，采用模型剪枝、量化和高效 transformer 架构等方法，如 Octopus v2 和 Lightweight Neural App Control 的创新。
利用专门硬件加速器和边缘计算解决方案，减少对云的依赖，增强隐私保护并提高响应速度。

6.3 用户中心适应：交互与个性化

提高智能体对用户意图的理解能力，减少手动干预，支持语音命令、手势和持续学习用户反馈。
实现智能体的个性化适应，通过集成多种学习技术，使其快速适应新任务和用户特定上下文，无需大量重新训练。

6.4 模型定位、推理等能力提升

改进语言指令到 UI 元素的精确映射，集成先进视觉模型、大规模注释和有效融合技术，提升多模态定位能力。
增强智能体在复杂场景中的推理、长程规划和适应性，开发新架构、内存机制和推理算法，超越当前 LLM 能力。

6.5 标准化评估基准

建立统一的基准，覆盖多种任务、应用类型和交互模态，提供标准化指标、场景和评估协议，促进公平比较和全面评估。

6.6 确保可靠性和安全性

开发强大的安全协议、错误处理技术和隐私保护方法，防范对抗攻击、数据泄露和意外行为，保护用户信息和信任。
实施持续监测和验证过程，实时检测和缓解风险，确保智能体行为可预测、尊重隐私并在各种条件下保持稳定性能。

7. 总结

综述了 LLM 驱动的手机自动化技术发展，包括多种框架（单智能体、多智能体、计划 - 然后 - 行动）、模型方法（提示工程、基于训练）和数据集 / 基准。
分析了 LLM 在提升手机自动化效率、智能性和适应性方面的作用，以及面临的挑战和未来发展方向。
强调了标准化基准和评估指标对推动领域发展的重要性，有助于公平比较不同模型和方法。

展望未来，随着模型架构改进、设备端推理优化和多模态数据集成，基于大模型的手机 GUI 智能体有望在复杂任务中实现更高自主性，融合更多 AI 范式，为用户提供无缝、个性化和安全的体验。

....

#黄仁勋圈重点的世界模型平台是个啥

技术报告全解析，华人贡献中坚力量

AI 的下一个前沿是物理。在昨天的 CES 发布会上，英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。

简单来说，Cosmos 是一个世界模型平台，上面有一系列开源、开放权重的视频世界模型，参数量从 4B 到 14B 不等。这些模型的作用非常明确，就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据，以解决该领域数据严重不足的问题。

，时长02:22

英伟达的 Cosmos 平台一次发布了 8 个模型。

这些模型在 2000 万小时的视频数据上进行训练，分为扩散（连续 token）和自回归（离散 token）模型两类，支持文本生成视频和文本 + 视频生成视频两种生成方式。

生成效果如下：

英伟达表示，已经有许多领先的机器人和汽车公司成为 Cosmos 的首批用户，包括 1X、Agile Robots、Agility、Uber 等等。

黄仁勋表示：「机器人技术的 ChatGPT 时刻即将到来。与大型语言模型一样，世界基础模型对于推动机器人和自动驾驶汽车开发至关重要，但并非所有开发者都具备训练自己的世界模型的专业知识和资源。我们创建 Cosmos 是为了让物理 AI 普及化，让每个开发者都能用上通用机器人技术。」

Cosmos 模型已经公开发布，下面是相关地址：

英伟达 API 目录：https://build.nvidia.com/explore/simulation
Hugging Face：https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6

除了模型，英伟达还公开了 Cosmos 的技术报告。从贡献者名单来看，华人学者承担了该项目的大量工作，有些小组（比如 Prompt Upsampler）甚至出现了全员华人的现象（文末可见完整名单）。

技术报告地址：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_4.pdf

以下是技术报告的核心内容。

技术报告概览

技术报告主要介绍了用于构建物理 AI 的 Cosmos 世界基础模型（WFM）平台。作者主要关注的是视觉世界基础模型。在这种模型中，观察结果以视频形式呈现，扰动可以以各种形式存在。

如图 2 所示，作者提出了一个预训练，然后后训练的范式，将 WFM 分成预训练 WFM 和后训练 WFM。为了建立预训练 WFM，他们利用大规模的视频训练数据集，让模型接触到各种不同的视觉体验，使其成为一个通才。

为了建立后训练 WFM，他们使用从特定物理 AI 环境中收集的数据集，对预训练 WFM 进行微调，以建立专门的 WFM，用于目标明确的专门物理 AI 设置。图 1 展示了预训练和后训练 WFM 的结果示例。

数据决定了 AI 模型的上限。为了构建一个高上限的预训练 WFM，作者开发了一个视频数据整理 pipeline。他们用它来定位具有丰富动态效果和高视觉质量的视频部分，以促进模型学习编码在视觉内容中的物理知识。

作者使用该 pipeline 从长达 2000 万小时的视频集合中提取了约 1 亿个视频片段，片段长度从 2 秒到 60 秒不等。对于每个片段，他们使用视觉语言模型（VLM）为每 256 帧提供一个视频描述。视频处理是计算密集型工作。作者利用现代 GPU 硬件实现的 H.264 视频编码器和解码器进行解码和转码。这个视频数据整理 pipeline 利用了许多预训练的图像 / 视频理解模型。这些模型具有不同的吞吐量。为了最大限度地提高生成可训练视频数据的总体吞吐量，作者构建了一个基于 Ray 的协调 pipeline。

在报告中，作者探讨了两种用于构建预训练 WFM 的可扩展方法。这两种方法是基于 transformer 的扩散模型和自回归模型。扩散模型通过逐步去除高斯噪声视频中的噪声来生成视频。自回归模型基于之前的生成内容，按照预设顺序逐段生成视频。

这两种方法都能将困难的视频生成问题分解为更容易解决的子问题，从而使问题更加容易解决。作者利用 SOTA transformer 架构来提高其可扩展性。在第 5.1 节中，他们介绍了一种基于 Transformer 的扩散模型设计，它具有强大的世界生成能力。在第 5.2 节中，他们介绍了一种基于 Transformer 的自回归模型设计，用于生成世界。

基于 Transformer 的扩散模型和基于 Transformer 的自回归模型都使用 token 来表示视频，前者使用向量形式的连续 token，后者使用整数形式的离散 token。作者注意到，视频 token 化 —— 一个将视频转换为 token 集的过程 —— 是一个非常复杂的过程。视频包含丰富的视觉世界信息。然而，为了便于学习世界基础模型，我们需要将视频压缩为紧凑的 token 序列，同时最大限度地保留视频中的原始内容，因为世界基础模型训练的计算复杂度会随着 token 数量的增加而增加。在很多方面，构建视频 tokenizer 与构建视频编解码器类似。作者开发了一种基于注意力的编码器 - 解码器架构，用于学习连续和离散 token 的视频 token 化（见第 4 章）。

在第 6 章中，作者对预训练的 WFM 进行微调，以获得适用于各种物理 AI 任务的后训练 WFM。在第 6.1 节中，作者对预训练的扩散 WFM 进行微调，使其成为相机姿态条件。这种后训练创建了一个可导航的虚拟世界，用户可以通过移动虚拟视点来探索所创建的世界。在第 6.2 节中，他们在由视频动作序列组成的各种机器人任务中对 WFM 进行微调。结果表明，通过利用预训练的 WFM，可以根据机器人采取的行动更好地预测世界的未来状态。在第 6.3 节中，作者演示了如何针对各种自动驾驶相关任务对预训练的 WFM 进行微调。

英伟达开发的 WFM 的预期用途是物理 AI 构建者。为了在使用 WFM 时更好地保护开发人员，作者开发了一个功能强大的防护系统，其中包括一个用于阻止有害输入的前置防护系统和一个用于阻止有害输出的后置防护系统。详情见第 7 章。

英伟达的目标是建立一个世界基础模型平台，帮助物理 AI 构建者推进他们的系统。为了实现这一目标，他们根据 NVIDIA 开放模型许可，分别在 NVIDIA Cosmos 和 NVIDIA Cosmos Tokenizer 目录下提供预训练的世界基础模型和 tokenizer。预训练脚本和后训练脚本将与视频数据整理 pipeline 一起在 NVIDIA Nemo Framework 目录下提供，以帮助构建者制作微调数据集。

NVIDIA Cosmos：https://github.com/NVIDIA/Cosmos
NVIDIA Cosmos Tokenizer：https://github.com/NVIDIA/Cosmos-Tokenizer
NVIDIA Nemo Framework：https://github.com/NVIDIA/Nemo

世界基础模型平台

设𝑥_0：𝑡为从时间 0 到𝑡对现实世界的一系列视觉观察，𝑐_𝑡为世界的扰动。如图 3 所示，WFM 是一个为 W 的模型，它基于过去的观察

，和当前的扰动 c_t 来预测时间 t+1 的未来观察

。在示例中，𝑥_0:𝑡 是 RGB 视频，而 𝑐_𝑡 是一种可以采取多种形式的扰动。它可以是物理 AI 采取的动作、随机扰动、扰动的文本描述等。

图 4 直观地展示了 Cosmos WFM 平台中可用的功能，包括视频 curator、视频 tokenization、世界基础模型预训练、世界基础模型后训练和护栏（guardrail）。

具体而言：

视频 curator。本文开发了一个可扩展的视频数据 pipeline。每个视频被分割成没有场景变化的独立镜头。随后，对这些片段应用一系列过滤步骤，以筛选出高质量且富含动态信息的子集用于训练。这些高质量镜头随后使用视觉语言模型（VLM）进行标注。接着执行语义去重，以构建一个多样但紧凑的数据集。

视频 tokenization。本文开发了一系列具有不同压缩比的视频 tokenizer。这些 tokenizer 是因果性的，当前帧的 token 计算不依赖于未来的观测。这种因果设计有几个优点。在训练方面，它使得联合图像和视频训练成为可能，因为当输入是单张图像时，因果视频 tokenizer 也可以作为图像 tokenizer 使用。这对于视频模型利用图像数据集进行训练非常重要，因为图像数据集包含了丰富的世界外观信息，并且往往更加多样化。

WFM 预训练。本文探索了两种可扩展的方法来构建预训练的世界基础模型 —— 扩散模型和自回归模型。

对于基于扩散的 WFM，预训练包括两个步骤：1）Text2World 生成的预训练，以及 2）Video2World 生成的预训练；
对于基于自回归的 WFM，预训练包括两个步骤：1）基础的下一 token 生成，以及 2）文本 - 条件 Video2World 生成。

世界模型后训练。本文展示了经过预训练的 WFM 在多个下游物理 AI 应用中的应用。本文以相机姿态作为输入提示对预训练的 WFM 进行微调，因而模型能够在创建的世界中自由导航。此外，本文还展示了如何针对人形机器人和自动驾驶任务对预训练 WFM 进行微调。

护栏。为了安全使用所开发的世界基础模型，本文开发了一个护栏系统，用于阻止有害的输入和输出。

Tokenizer

tokenizer 是现代大模型的基本构建块，能将原始数据转换为更有效的表征。具体来说，视觉 tokenizer 将原始和冗余的视觉数据（例如图像和视频）映射为紧凑的语义 token，这使得它们对于处理高维视觉数据至关重要。这种能力不仅能够有效训练大规模 Transformer 模型，而且还使有限计算资源上的推理民主化。

tokenizer 有两种类型：连续型和离散型。连续型 tokenizer 将视觉数据编码为连续的潜在嵌入，如 Stable Diffusion 或 VideoLDM 等潜在扩散模型。这些嵌入适用于通过从连续分布中采样生成数据的模型。离散 tokenizer 将视觉数据编码为离散潜在编码，将其映射为量化索引，如 VideoPoet 等自回归 transformer。这种离散表征对于像 GPT 这样用交叉熵损失训练的模型来说是必要的。

tokenizer 的成功在很大程度上依赖于它们提供高压缩率而不影响后续视觉重建质量的能力。一方面，高压缩减少了存储和计算需求。另一方面，过度压缩可能会导致重要视觉细节丢失。这种权衡对 tokenizer 的设计提出了重大挑战。

英伟达推出了 Cosmos Tokenizer，这是一组视觉 tokenizer，其中包括用于图像和视频的连续和离散 tokenizer。Cosmos Tokenizer 提供卓越的视觉重建质量和推理效率。并提供一系列压缩率来适应不同的计算限制和应用程序需求。

英伟达使用轻量级且计算高效的架构和时间因果机制来设计 Cosmos Tokenizer。具体来说，Cosmos Tokenizer 采用因果时间卷积层和因果时间注意力层来保留视频帧的自然时间顺序，确保使用单一统一网络架构对图像和视频进行无缝 tokenization。

如图 8 所示，评估结果表明，Cosmos Tokenizer 的性能明显优于现有 tokenizer：

世界基础模型预训练

经过预训练的 WFM 是通才模型，可以捕捉现实世界物理和自然行为的一般知识。本文利用两种不同的可扩展深度学习范式 —— 扩散模型和自回归模型，构建了两类 WFM。

扩散模型和自回归模型都将复杂的生成问题分解为一系列更简单的子问题，并极大地推动了生成模型的发展。

对于扩散模型，复杂的生成问题被分解为一系列去噪问题；而对于自回归模型，复杂的生成问题则被分解为一系列下一个 token 预测问题。

本文在三个月的时间内，使用一个由 10,000 个 NVIDIA H100 GPU 组成的集群，训练了论文中报告的所有 WFM。

表 10 展示了预训练 WFM 及其配套模型的概览。

对于基于扩散的 WFM 家族，本文首先构建了两个 Text2World 模型，分别为 7B 和 14B 参数，分别命名为 Cosmos-1.0-Diffusion-7B-Text2World 和 Cosmos-1.0-Diffusion-14B-Text2World。

对于基于自回归的 WFM 家族，本文首先构建了两个基础模型，分别为 4B 和 12B 参数，命名为 Cosmos-1.0-Autoregressive-4B 和 Cosmos-1.0-Autoregressive-12B。这些模型纯粹基于当前视频观测预测未来视频。

Cosmos-1.0-Diffusion WFM 的整体架构：

Cosmos-1.0-Diffusion 模型的配置细节。

本文采用渐进式训练策略，每个阶段的具体情况见表 12：

基于自回归的 WFM 架构如图 14 所示。本文对标准的 Transformer 模型架构进行了几项修改，以适应视频生成任务，包括添加了：1）3D 感知的位置嵌入，2）交叉注意力机制以支持文本输入，从而实现更好的控制，以及 3）QK-Normalization。

Cosmos-1.0-Autoregressive 模型配置细节。

技术报告演示了如何微调 Cosmos WFM 以支持不同的物理 AI 应用，包括：

以用于相机控制的后训练 WFM 为例，通过相机姿态调节，英伟达将相机控制集成到 Cosmos-1.0-Diffusion-7B-Video2World 中，使其成为有效的 3D 世界模拟器。训练后的 WFM 结果被称为 Cosmos-1.0-Diffusion-7BVideo2World-Sample-CameraCond。

为了安全使用 WFM，英伟达还开发了一套全面的安全系统（护栏）。它由两个阶段组成：Pre-Guard 阶段和 Post-Guard 阶段。Pre-Guard 阶段利用 Aegis（Ghosh 等人，2024）和关键字列表来阻止有害提示。Post-Guard 阶段使用视频内容安全分类器和面部模糊过滤器来阻止有害的视觉输出。

核心贡献者

论文最后还列出了贡献者名单，占据了整整一页的篇幅。

名单分为核心贡献者和贡献者，粗略看下来，华人学者几乎占据了半壁江山。在这份名单中，我们看到了许多熟悉的研究者，比如：

平台架构唯一贡献者 Ming-Yu Liu，他是 NVIDIA 的研究副总裁和 IEEE Fellow。他现在领导 NVIDIA 的深度想象研究（Deep Imagination Research）团队，专注于深度生成模型及其在内容创作中的应用。

多次出现名字的凌欢，是 Nvidia Toronto AI Lab 的人工智能科学家。博士毕业于多伦多大学 PhD，博士期间师从 Sanja Fidler 教授。他的研究方向主攻大规模图像视屏生成模型，和生成模型在计算机视觉领域的应用。

完整名单如下所示，里面有你熟悉的学者吗？

....

#MeCo

少用33％数据，模型性能不变，陈丹琦团队用元数据来做降本增效

除了提升数据效率之外，本文方法 MeCo 保证了计算开销与复杂性也几乎不会增加。

普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文，这次将重点放在了「使用元数据来加速预训练」上来。

我们知道，语言模型通过在大量网络语料库上进行训练来实现卓越的通用能力。多样性训练数据凸显了一个根本性挑战：人们自然地根据数据源来调整他们的理解，与之不同，语言模型将所有内容作为等效样本来处理。

这种以相同方式处理异构源数据的做法会带来两个问题：一是忽略了有助于理解的重要上下文信号，二是在专门的下游任务中阻碍模型可靠地展示适当的行为，比如幽默或事实。

面对以上这些挑战，并为了提供每个文档来源的更多信息，陈丹琦团队在本文中提出通过在每个文档之前添加广泛可用的源 URL，从而在预训练期间使用文档相应的元数据进行调节。并且为了确保模型在推理过程中无论有无元数据都能高效地运行，在最后 10% 的训练中实施了冷却（cooldown）。他们将这种预训练方法称为 Metadata Conditioning then Cooldown（MeCo）。

先前的工作中已经有人使用元数据条件来引导模型生成并提高模型对恶意提示的稳健性，但研究者通过关键的两点确认了所提方法的通用实用性。首先，他们证明这一范式可以直接加速语言模型的预训练并提高下游任务性能。其次，MeCo 的冷却阶段确保模型在没有元数据的情况下可以执行推理，这点与以往的方法不同。

本文的主要贡献包括如下：

一、MeCo 大大加速了预训练过程。研究者证明，MeCo 使得 1.6B 的模型在少用 33％训练数据的情况下，实现与标准预训练模型相同的平均下游性能。MeCo 在模型规模（600M、1.6B、3B 和 8B）和数据源（C4、RefinedWeb 和 DCLM）表现出了一致的增益。

二、MeCo 开辟了一种引导模型的新方法。在推理过程中，在提示之前添加合适的真实或合成 URL 可以诱导期望的模型行为。举个例子，使用「factquizmaster.com」（并非真实 URL）可以增强常识知识任务的性能，比如零样本常识问题绝对性能可以提升 6%。相反，使用「wikipedia.org」（真实 URL）可以将有毒生成的可能性比标准无条件推理降低数倍。

三、MeCo 设计选择的消融实验表明，它能与不同类型的元数据兼容。使用散列 URL 和模型生成主题的消融实验表明，元数据的主要作用是按照来源对文档进行分组。因此，即使没有 URL，MeCo 也可以有效地合并不同类型的元数据，包括更细粒度的选项。

研究结果表明，MeCo 可以显著提高语言模型的数据效率，同时几乎不会增加预训练过程的计算开销和复杂性。此外，MeCo 提供了增强可控性，有望创建更可控的语言模型，并且它与更细粒度和创造性的元数据的普遍兼容性值得进一步探索。

总之，作为一种简单、灵活、有效的训练范式，MeCo 可以同时提高语言模型的实用性和可控性。

论文标题：Metadata Conditioning Accelerates Language Model Pre-training
论文地址：https://arxiv.org/pdf/2501.01956v1
代码地址：https://github.com/princeton-pli/MeCo

论文一作高天宇（Tianyu Gao）还在评论区与读者展开了互动，并回答了一个问题「MeCo 是否需要平衡过拟合和欠拟合」。他表示，本文的一个假设是 MeCo 进行隐式数据混合优化（DoReMi、ADO）并上采样欠拟合和更多有用域。

OpenAI 一位研究人员 Lucas Beyer 表示，他很久之前就对视觉语言模型（VLM）做过类似的研究，很有趣，但最终用处不大。

方法概览

本文方法包括以下两个训练阶段，如下图 1 所示。

使用元数据条件进行预训练（前 90%）：模型在串接的元数据和文档上进行训练，并遵循以下模板「URL: en.wikipedia.org\n\n [document]」。使用其他类型的元数据时，URL 替换为相应的元数据名称。研究者仅计算文档 token 的交叉熵损失，而忽略出自模板或元数据的 token。他们在初步实验中发现：使用这些 token 训练会损害下游任务性能。

使用标准数据进行冷却（后 10%）：对于仅使用元数据增强的数据进行训练的模型，在没有元数据的情况下性能会下降（具体可见下表 4）。为了确保通用性，研究者在冷却阶段，使用了没有任何元数据的标准预训练文档来训练模型，该阶段涵盖了预训练过程最后 10% 的步骤。

冷却阶段继承了来自元数据条件阶段的学习率计划和优化器状态，即它从上一个阶段的最后一个检查点初始化学习率、模型参数和优化器状态，并继续根据计划来调整学习率。

研究者还在所有实验中采用了以下两项技术，并且初步实验表明它们提高了基线预训练模型的性能：

禁用了跨文档注意力，此举既加快了训练速度（1.6B 模型的速度提升了 25％），又提高了下游任务的性能；
将多个文档打包成一个序列时，确保每个序列都从一个新文档开始，而不是从一个文档的中间开始，这可能会导致在将文档打包为一个固定长度时丢弃一些数据，但被证明有利于提高下游任务性能。

实验结果

研究者在所有实验中使用了 Llama 系列模型使用的 Transformer 架构和 Llama-3tokenizer，使用了四种规模的模型大小，分别是 600M、1.6B、3B 和 8B。他们对语言模型采用了标准优化设置，即 AdamW 优化器和余弦学习率计划。

少用 33% 数据，MeCo 性能与标准预训练方法相当

下表 1 显示了研究者在 DCLM 上的 160B token 上，对 1.6B 语言模型进行预训练的主要结果。他们首先观察到，在大多数任务中，MeCo 的性能显著优于标准预训练方法。MeCo 还超越了数据挑选基线。并且与数据挑选方法不同的是，MeCo 不会产生任何计算开销，它利用了预训练数据中随时可用的 URL 信息。

更重要的是，MeCo 实现了与标准预训练方法相当的性能，同时使用的数据和计算量减少了 33%，代表了数据效率的显著提高。

下表 1 为困惑度指标，表明了验证困惑度与下游性能无关。值得注意的是，当将 240B 基线模型与 160B MeCo 模型比较时，由于数据量较大，基线模型表现出的困惑度要低得多，但这两个模型实现了类似的平均性能。

研究者在下图 2 中展示了整个预训练过程中下游任务的性能变化。对于 MeCo，图中的每个检查点都包含使用 16B token（占总训练 token 的 10％）的冷却阶段。例如，80B 检查点包含了 64B token 的条件训练和 16B token 的冷却。他们观察到，MeCo 始终超越了基线模型，尤其是在训练后期。

MeCo 在所有模型规模下均提升了性能

下图 3 显示了不同模型规模（600 M、1.6B、3B 和 8B）的结果。研究者使用相同的优化超参数和相同的数据量（DCLM 上的 160B）来训练所有模型，其中 8B 模型是个个例，它使用 80B token 进行训练，由于资源限制和训练不稳定而导致学习率较低。

研究者观察到，MeCo 在所有规模下均提升了模型性能。并且 MeCo 看起来可以为更大的模型带来更多的改进，十亿级参数的模型与 600M 相比显示出更显著的收益。不过需要注意，这是一个定性观察，与预训练损失相比，下游任务性能的扩展不太平稳。

MeCo 提升了不同训练语料库的性能

研究者基于三个不同的数据源（C4、RefinedWeb 和 DCLM），在 160B token 上训练了 1.6B 模型，结果如下图 4 所示。如果将平均下游性能作为数据质量指标，三个数据源的排序为 DCLM > RefinedWeb > C4。他们观察到，MeCo 在不同数据源上实现了一致且显著的增益，平均准确率和单个任务均是如此。

更多技术细节请参阅原论文。

....

#Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

本文的共同通讯作者为涂兆鹏和王瑞，涂兆鹏为腾讯专家研究员，研究方向为深度学习和大模型，在国际顶级期刊和会议上发表学术论文一百余篇，引用超过9000次。担任SCI期刊NeuroComputing副主编，多次担任ACL、EMNLP、ICLR等国际顶级会议领域主席。王瑞为上海交通大学副教授，研究方向为计算语言学。共同第一作者为上海交通大学博士生陈星宇、何志威，腾讯AI Lab高级研究员徐嘉豪、梁添。

本文将介绍首个关于 o1 类长思维链模型过度思考现象。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。

论文题目：Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
论文地址：https://arxiv.org/pdf/2412.21187

背景与动机

自 OpenAI 发布 o1 模型以来，它超强的逻辑推理以及难题解决能力就引发了广泛关注。o1 模型通过模拟人类的深度思考过程，在思维链中运用如自我反思、纠错以及探索多种解法等推理策略，展现了强大的长时间推理（Inference-Time Scaling）性能。依靠这种机制，o1 模型能够不断优化自身的答案质量。然而，在 o1 成功的光环下，一个潜在问题逐渐被放大 —— 过度思考。

随着 o1 模型的问世，许多类似的模型也陆续出现，比如 Qwen 团队开源的 QwQ-32B-Preview [1] 以及 Deepseek 推出的 R1-Preview [2] 模型。这些模型在推理时同样具备 “深度思考” 的特性，但也暴露出了类似的问题：在不必要的情况下生成过长的思维链反而浪费了计算资源。举一个简单的例子，对于问题 “2+3=？”，不同模型的回答长度如下图所示：

传统模型的回答通常只需要极少的 token 就能给出答案，然而对于 o1 模型，其消耗的推理 token 直接达到了 200 以上。更极端的是，Deepseek-R1-Preview 和 QwQ-32B-Preview 的 token 消耗甚至达到了 900！为什么 QwQ 模型会产生如此之长的输出？研究团队进一步分析了 QwQ 对这个问题的答案，结果见下图右栏：

QwQ-32B-Preview 模型会在推理过程中尝试多种不同的解题策略。对于简单的加法问题，模型探索了直接使用数学计算、数轴移动模拟，以及类比数苹果等方法，经历了多轮推理后才最终确定结果。尽管这种思维链策略对于复杂问题的解答非常有帮助，但在应对简单问题时，反复验证已有的答案和进行过于宽泛的探索显然是一种计算资源的浪费。为了更好地研究这个问题，研究团队对这类 o1 模型的过度思考现象进行了更细致的定义和深入分析。

过度思考现象

文章首先定义了模型回复中的独立解答（Solution）：每当模型完整地得到一次对输入问题的答案（无论对错），这就被认为是一个独立解答。如例子所示，每一个解答都包含了答案 “5”。基于这个定义，研究人员在三个不同的数据集上统计了 Qwen-QwQ-32B-Preview 模型和 Deepseek-R1-Preview 模型的解答数量分布（解答的判断和抽取由 Llama-3.3-70B 模型完成）：

其中，ASDIV [3] 是一个包含小学难度数学题的测试集，GSM8K [4] 是常用的初级难度数学题测试集，MATH500 [5] 是高中数学竞赛难度的测试集。如图所示，无论是对于 QwQ 模型还是 R1 模型，包含 2-4 个解答的样本占了所有样本的 70% 以上，可见这种 Solution-Level 的反思行为在当前的类 o1 模型中十分普遍。那么这些解答本身是否都是必须的呢？下图展示了在不同数据集上，模型首次得到正确答案的解答位置：

令人惊讶的是，对 QwQ 模型和 R1 模型的实验分析显示，它们在超 90% 的情况下，都能在第一次尝试中就成功输出正确答案。也就是说，后续多轮思考对答案正确率的提升几乎没有实质性贡献。这一现象进一步验证了此前对模型过度思考的观察：绝大多数情况下，模型的多轮反思可能只是在反复验证已有的答案，从而造成了资源浪费。

然而，这种现象也引发了不同观点的争论。一些研究者认为，o1 类模型的一个核心特性在于其能够自主探索问题的不同解法。从这一角度来看，如果模型在推理过程中使用了多种不同的思路来解决问题，那么这种多样化的探索不仅有助于加深模型对问题的理解，还体现了模型的自主探索能力，不应简单地视为 “过度思考”。为了更深入地剖析这一问题，研究团队进一步提出了一种分析方法。他们利用 GPT-4o 对模型的回答进行分类，具体包括以下步骤：

推理策略分类：对每一个解答进行推理策略的标注，将采用相同推理方式的回答归为同一类。例如，对于 “2+3=？” 这样的问题，可能涉及的推理策略包括数学运算模拟、数轴移动和实物类比等。
多样性分析：在归类的基础上，分析并统计不同解答之间的推理策略多样性。

通过这一方法，研究者能够量化推理过程中是否存在真正意义上的 “多样化探索”。这种分析为我们提供了衡量模型行为的一种新视角：当模型的不同解答策略高度相似甚至重复时，可以说明多轮推理的贡献是有限的；而当推理策略的多样性伴随着思考层次的提升而增加时，则反映了模型对问题理解的进一步加深。这种视角能够帮助我们更准确地区分 “有效的自主探索” 和 “低效的重复推理”。如下图所示：

图中展示了每个位置的解答引入新推理思路的可能性。第一个位置的解答总会是 “新的思路”，因此其概率为 100%。但随着推理位置的后移，解答中带来新推理思路的可能性逐渐降低。这一趋势表明，越到后续位置，模型越倾向于重复先前的推理思路，从而导致其推理行为变得冗余且低效。从这个角度来看，模型的后续解答更多是一种无效的重复思考。

通过上述分析，我们可以发现这些过度思考所产生的解答往往具备以下两个关键特征：

新解答对答案的正确性没有贡献：模型往往在一开始就已经成功得出正确答案，后续的多轮反复检验是多余且不必要的。
新解答未能引入实质性新思路：模型后续的解答仅以不同的表述方式重复了早先已有的结论，而没有真正扩展推理的深度或视角。

过度思考指标

基于这一发现，研究团队进一步定义了两个衡量模型 “过度思考” 现象的核心指标：

1. 产出效率（Outcome Efficiency）：用于衡量模型回复中每一个解答对最终答案的贡献，等于正确解答中的 token 数除以完整回复的总 token 数。计算公式为：

其中，N 为样本数，

为模型第 i 个样本的回复中第一个正确解答的 token 数目，

为第i个样本的整个回复的 token 数量，

代表第i个样本是否正确。直观地看，一个模型得到正确解答之后进行反思的轮数越少，正确解答在整个回复中的占比就越大，产出效率就越高。

2. 过程效率（Process Efficiency）：用于衡量模型回复中每一个解答对推理策略多样性的贡献，等于回复中属于不同思路的总 token 数目除以整个回复的 token 数目，计算公式为：

其中 N 为样本数，

为第i个样本的整个回复 token 数量，

为第i个样本中所有属于不同推理策略的 token 总数。该指标衡量的是模型进行多轮反思的有效性，回答中涉及的不同的推理策略越多，

就会越大，那么过程效率就会越高。

基于这两个指标，研究者们统计了 QwQ 模型和 R1 模型在 MATH500 数据集上的效率指标表现：

从图中可以观察到，R1 模型在效率上略优于 QwQ 模型，但两个模型都不同程度地暴露出 “过度思考” 的问题。对于难度最低的等级 1 问题，研究者发现两个模型的表现都有如下特点：

产出效率不足一半：两个模型在这种简单任务上的产出效率均未超过 50%，意味着模型在取得正确答案后，依然生成了超过必要推理步骤至少一倍的额外推理内容。这符合上文的研究发现：正确答案通常在推理的较早阶段得到，但模型的后续行为中存在大量冗余推理。
思考过程效率较低：模型的整体过程效率只有 70% 左右，这意味着约 30% 的思考步骤是在重复无效的推理。这种重复的行为不仅未能提升正确率，也没有引入新的解题思路，从而造成了计算资源的浪费。

从以上分析可见，现有的 o1 类模型都普遍存在不同程度的 “过度思考” 现象，且这一问题在应对简单任务时尤为严重。这些现象突显了当前 o1 类模型推理机制中的不足，也意味着在模型的长思维链优化和推理资源分配方面仍有较大的改进空间。为此，研究者们提出了几种方法，旨在缓解模型的过度思考现象，提升推理效率。

缓解过度思考

由于目标是减少模型的过度思考但不损害模型的推理能力，因此最直接的想法就是通过偏好优化算法来鼓励模型生成更精简的回复。研究者们使用开源的 Qwen-QwQ-32B-Preview 模型作为实验的基座模型，基于该模型在 PRM12K [10] 的数据集上的多次采样结果，选择最长的模型回复作为偏好优化的负样本，而对于正样本的选择，有如下几种策略：

最短回复（Shortest Response）：使用模型采样结果中最短的生成结果作为正样本。
首个正确回答（First-Correct Solutions, FCS）：使用模型采样结果中最短的首次得到正确答案的解答作为正样本，抛弃所有后续的思考。
首个正确回答 + 验算（FCS+Reflection）：由于绝大多数的采样结果都是在第一个解答中就出现了正确答案，仅保留首个正确回答可能会使得模型退化，因此研究者们在第一次得到正确答案后，额外保留了一轮反思的内容。
最多样回复（Greedily Diverse Solutions，GDS）：除了单纯地对长度进行控制，另一个优化思路是尽可能保留更多样化的思考轨迹，因此研究者们在 FCS 方法的基础上，尽可能多地保留了包含不同推理策略的解答。

基于以上几种偏好数据，研究者们尝试了最基础的 SFT 以及多种偏好优化算法，如 DPO [6]，RPO [7][8] 以及 SimPO [8]。实验结果如下：

表格中的 SFT 方法是指仅使用正样本进行微调。从表格中可以看出，在同样的 “最短回复” 设置下，SimPO 有着最好的优化效果，而基于 SimPO 的进一步实验表明，使用首个正确回答 + 验算作为正样本的策略能够很好地取得效率和性能的平衡，能够在保持模型性能的同时大幅度地减少输出的 token 数目以及平均解答轮数，并有效地提高产出效率和过程效率。为了进一步分析方法的有效性，研究者们分析了 MATH500 测试集的不同难度下 SimPO+FCS+Reflection 方法的表现，如下图所示：

有意思是，文中提出的方法在最简单的难度 1 的问题上，仅使用了相比于原来 63.6% 的 token 数目便达到了 100% 的正确率，而且在难题（难度 4 和 5）上，文中的方法能够在提升性能的同时大幅度减少输出的冗余，这展示了提出的方法在减缓过度思考上的有效性。

总结

这篇论文聚焦于 o1 类推理模型面临的一个核心挑战：如何合理控制推理过程中的计算量，提升思考效率。文章通过分析实验揭示了一个普遍问题 ——o1 类模型在处理简单问题时容易陷入过度思考，从而增加了不必要的计算消耗。基于对此现象的详细分析，研究者提出了一系列有效的优化方法，能够在保持模型性能的同时，大幅减少冗余推理，提升推理效率。这些方法的实验结果表明，它们显著优化了模型在简单任务上的资源利用情况，为实现 “高效思考” 的目标迈出了重要一步。未来的研究将重点探索以下方向：

自适应调控策略：开发让模型根据问题复杂程度动态调整推理深度的机制，更智能地分配计算资源；
更精细的效率评估指标：设计能够覆盖更广泛推理轨迹的指标，从而更全面地评估模型的思考效率。

这项研究不仅提升了 o1 类模型的推理，同时也为未来更高效、更智能的推理机制提供了重要的理论基础与实践参考。

....

#大模型推理加速新范式

加速比高达3.51倍、成本降至1/3

近日，中国电信翼支付针对大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》已被 AAAI 2025 接收。

论文中提出的 Falcon 方法是一种增强半自回归投机解码框架，旨在增强 draft model 的并行性和输出质量，以有效提升大模型的推理速度。Falcon 可以实现约 2.91-3.51 倍的加速比，在多种数据集上获得了很好的结果，并已应用到翼支付多个实际业务中。

论文地址：https://arxiv.org/pdf/2412.12639

1. 研究背景

大型语言模型 (LLMs) 在各种基准测试中展现了卓越的表现，然而由于自回归 (AR) 解码方式，LLMs 在推理过程中也面临着显著的计算开销和延迟瓶颈。

为此，研究学者提出 Speculative Decoding (投机采样) 方法。Speculative Decoding 会选择一个比原始模型 (Target Model) 轻量的 LLM 作为 Draft Model，在 Draft 阶段使用 Draft Model 连续生成若干个候选 Token。在 Verify 阶段，将得到的候选 Token 序列放入到原始 LLM 做验证 & Next Token 生成，实现并行解码。通过将计算资源导向于验证预先生成的 token，Speculative Decoding 大大减少了访问 LLM 参数所需的内存操作，从而提升了整体推理效率。

现有的投机采样主要采用两种 Draft 策略：自回归 (AR) 和半自回归 (SAR) draft。AR draft 顺序生成 token，每个 token 依赖于前面的 token。这种顺序依赖性限制了 draft 模型的并行性，导致显著的时间开销。相比之下，SAR draft 同时生成多个 token，增强了 draft 过程的并行化。然而，SAR draft 的一个重要局限是它无法完全捕捉相同 block 内 draft tokens 之间的相互依赖关系，可能导致生成的 token 接受率较低。

因此，在投机采样中，平衡低 draft 延迟与高推测准确性以加速 LLMs 的推理速度，是一个重大挑战。

为此，翼支付提出了 Falcon，一个增强的半自回归（SAR）投机解码框架，旨在增强 draft model 的并行性和输出质量，从而提升 LLMs 的推理效率。Falcon 集成了 Coupled Sequential Glancing Distillation（CSGD）方法，提高了 SAR draft model 的 token 接受率。

此外，Falcon 还设计了一种专门的 decoding tree 来支持 SAR 采样，使得 draft model 可以在一次前向传播中生成多个 token，并且也能够支持多次前向传播。这种设计有效提升 LLMs 对 token 的接受率，进一步加快了推理速度。

2. 研究方法

Falcon 的架构如图 1 所示，可以看到，该半自回归解码框架主要由三个组件构成：Embedding Layer、LM-Head 和半自回归解码 Head。

图 1 Falcon 框架图

具体来讲，Falcon 将一个时间步长之前的连续特征序列和当前 token 序列连接起来，以同时预测接下来的 k 个标记。例如，当 k = 2 时，Falcon 使用初始特征序列 (f1, f2) 和提前一个时间步长的标记序列 (t2, t3) 来预测特征序列 (f3, f4)。随后，将预测得到的特征 (f3, f4) 与下一个标记序列 (t4, t5) 连接，形成新的输入序列。这个新输入序列用于预测后续的特征序列 (f5, f6) 和标记序列 (t6, t7)，从而促进 draft 过程的继续。Draft model 多次 forward 之后生成的 token 被组织成树结构，输入到大模型中进行 verify，通过 verify 的 token 被大模型接收，并基于此基础开始下一个循环。

2.1 Coupled Sequential Glancing Distillation

当前推测解码方法的准确性相对较低，主要原因是 token 之间的上下文信息不足。CSGD 通过用真实 token 和 hidden states 替换一些初始预测来改善这一点，将正确信息重新注入解码过程中，从而提高后续预测的准确性和连贯性。模型结构及训练流程如下图：

图 2 CGSD 方法示意图

在训练过程中，一个时间步长之前的连续特征序列和当前 token 序列连接起来，并输入到 draft model 中，形成一个融合序列，其维度为 (bs, seq_len, 2 * hidden_dim)。

draft model 由一个混合 Transformer 网络组成，该网络包括两层 LSTM、Relaxed Causal-Masked 多头注意力机制，以及 MLP 网络。其中 LSTM 网络将融合序列的维度减少到 (bs, seq_len, hidden_dim)，并保留关于过去 token 的信息，从而提高模型的准确性。Relaxed Causal-Masked 多头注意力机制能够在保持因果关系的同时，专注于输入序列的相关部分。MLP 层进一步处理这些信息，以做出最终预测。

当序列首次通过 draft model 后，会生成初始的 token 预测

。然后，我们计算 draft model 的预测与真实 token Y 之间的汉明距离，以此来衡量预测的准确性。接下来，我们将一定数量连续预测的 token 序列

和特征序列

替换为来自 LLMs 的正确 token 序列

和特征序列

。

CSGD 与传统的 glancing 方法不同，后者仅随机替换 token。相反，CSGD 选择性地同时替换预测之前的连续 token 和特征序列，如图 2 中虚线框标注的 choice 1、choice 2、choice3 所示。这种方法增强了对 token 间的关系的理解，并确保 draft model 能够有效利用提前时间步长的 token 序列，这在 SAR 解码中尤为重要。随后，修正后的 token 和特征序列被重新输入到 draft model 中以计算训练损失。

在训练过程中，我们采用了知识蒸馏，损失函数包括 draft model 的输出特征与真实特征之间的回归损失以及蒸馏损失，具体的损失函数如下：

2.2 Custom-Designed Decoding Tree

当前基于树的推测解码方法通过在每个起草步骤生成多个 draft token 来提升推测效率。然而，这些方法仍然需要 draft model 按顺序生成 token，这限制了推测效率的进一步提高。为了解决这一局限性，CDT (Custom-Designed Decoding Tree) 支持 draft model 在一次前向传递中生成多个 token (k 个)，并且在每个 draft 步骤中支持多次前向传递。因此，与现有方法相比，CDT 生成的草稿标记数量是其 k 倍。

Draft model 多次 forward 之后，生成的 token 被组织成树结构，输入到大模型中进行 verify。LLM 使用基于树的并行解码机制来验证候选 token 序列的正确性，被接受的 token 及其相应的特征序列会在后续继续进行前向传递。在传统的自回归（AR）解码中，使用因果掩码，其结构为下三角矩阵。它确保了前面的 token 不能访问后面的信息。

相比之下，Falcon 采用了一种 causal 因果掩码 (如图 3 所示)，允许模型访问同一 k*k 的 block 内的 token 以及相应的之前的连续 token。这一增强显著提高了 drafter 生成 token 的效率，使 LLM 能够同时验证更多的 token，从而加快了 LLM 的整体推理速度。

图 3 Custom-Designed Decoding Tree 方法示意图

3. 实验结果

我们在多个数据集和多个模型上进行了广泛的实验，验证了本文方法的有效性。和现有的方法相比，Falcon 展现了优越的性能，具体如下图：

图 4 Falcon 实验结果图

4. 业务潜力

Falcon 大模型可以实现约 2.91-3.51 倍的加速比，相当于同等条件下推理成本下降至约原先的 1/3，从而大幅降低了大模型推理计算相关成本。

当前，Falcon 技术已转化至翼支付大模型产品 InsightAI 平台，并已服务诸如翼支付数字人客服、借钱-翼小橙、人力-翼点通、财务-翼小财等多个业务应用。

5. 总结

投机采样是大模型推理加速的一个核心方法。当前，主要的挑战是如何提升 draft model 的准确率、采样效率，并提升大模型的验证效率。文章提出了 Falcon 方法，一种基于增强半自回归投机解码框架。Falcon 通过 CSGD 这种训练方法以及半自回归的模型设计，显著提升了 draft model 的预测准确率以及采样效率。此外，为了让大模型能验证更多的 token，本文精心设计了一个 decoding tree，有效提升了 draft model 的效率，从而提升了验证效率。Falcon 在多种数据集上可以实现约 2.91-3.51x 的加速比并应用到翼支付的众多业务中，获得了很好的效果。

....

#英伟达「世界基础模型」诞生

引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

昨天，英伟达官宣了首个「世界基础模型」Cosmos。从此，物理AI数据不够的问题将有望解决！而就在刚刚，75页技术报告火热出炉，GitHub项目更是冲破了2k星。

CES大会上，老黄称，「AI下一个前沿就是物理AI」。

为此，英伟达重磅官宣了世界基础模型开发平台——Cosmos，其模型基于在200万小时视频上完成训练。

它一共包含了四大功能模块：扩散模型、自回归模型、视频分词器，以及视频处理与编辑流程。

用英伟达高级科学家Jim Fan的话来总结：

两种形式：扩散模型（生成连续的token）；自回归模型（生成离散的token）
两种生成模式：文本->视频；文本+视频->视频

Cosmos诞生就是为了拯救物理AI数据不够的问题！现如今，开发者们可以直接生成合成数据，将其用于自动驾驶和机器人研究中。

它一共包含了三种规格的模型：Nano、Super、Ultra。

与VideoLDM基准相比，Cosmos世界模型在几何准确性方面表现更优，而且在视觉一致性方面持续超越VLDM，姿态估计成功率最高飙升14倍。

GitHub项目仅开源不到一天的时间，星标飙升至2k。

与此同时，关于Cosmos 75页最详细的技术报告也发布了。

开源项目：https://github.com/NVIDIA/Cosmos

论文地址：https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai

Cosmos，定制世界模型

本文介绍了Cosmos世界基础模型平台，旨在帮助开发者构建定制化的世界模型。

在预训练中，研究者利用大规模的视频数据集，让模型接触到多样化的视觉数据，训练一个通用型模型。预训练的Cosmos世界基础模型（WFM）能够生成高质量、具有一致性的3D视频。

在后训练中，研究者从特定环境收集数据集，对预训练模型进行微调，从而得到适用于特定目标的专用WFM。

预训练的世界基础模型（WFM）是通用的世界模型，通过大规模、多样化的视频数据集进行训练。后训练的数据集是从目标环境中收集的提示-视频对。提示可以是动作指令、轨迹、说明等形式。

预训练和后训练相结合策略为构建物理AI系统提供了一种高效的方法。由于预训练WFM提供了良好的基础，后训练的数据集可以相对较小。

世界基础模型平台

设𝑥_0:𝑡为从时间0到𝑡的真实世界视觉观测序列。

设𝑐为对世界的扰动。如图3所示，WFM是一种模型𝒲，它根据过去的观测𝑥_0:𝑡和当前扰动𝑐𝑡，预测时间𝑡+1的未来观测值

。

在本案例中，𝑥_0:𝑡是一个RGB视频（即彩色图像视频），而𝑐𝑡是可以采取多种形式的扰动。例如，物理AI的动作、随机扰动或描述扰动的文本等。

世界基础模型（WFM）𝒲是一种模型，它根据过去的观测𝑥_0:𝑡和当前扰动𝑐𝑡生成世界的未来状态𝑥_𝑡+1

视频编辑

研究者开发了一条可扩展的视频数据编辑流程。

其中，每段视频被分割为无场景变化的独立镜头。通过过滤步骤定位高质量、动态且信息丰富的片段用于训练。

这些高质量镜头随后通过VLM（视觉语言模型）进行标注。接着执行语义去重，以构建一个多样但紧凑的数据集。

视频分词

研究者开发了一系列具有不同压缩比的视频分词器。这些分词器是因果性的（即当前帧的token计算不依赖未来帧）。

这种因果性设计带来了多个好处。在训练方面，它使得联合图像和视频训练成为可能，因为当输入为单张图像时，因果性视频分词器也可以作为图像分词器。

这对于视频模型利用图像数据集进行训练非常重要，因为图像数据集包含丰富的世界外观信息，且通常更加多样化。

在应用方面，因果性视频分词器更适合生活在因果世界中的物理AI系统。

WFM预训练

研究者探索了两种可扩展的预训练世界基础模型的方法——扩散模型和自回归模型。他们使用了Transformer架构，以实现可扩展性。

对于基于扩散的WFM，预训练包括两个步骤：

1. 文本到世界生成预训练（Text2World generation pre-training）

2. 视频到世界生成预训练（Video2World generation pre-training）

具体来说，他们训练了模型根据输入的文本提示词生成一个视频世界。然后对其进行微调，使其能够根据过去的视频和输入的文本提示词生成未来的视频世界，这被称为视频到世界生成任务（Video2World generation task）。

对于基于自回归的 WFM，预训练包括两个步骤：

1. 基本的下一个token生成（vanilla next token generation）

2. 文本条件的视频到世界生成（text-conditioned Video2World generation）

他们首先训练模型根据过去的视频输入生成未来的视频世界（前瞻生成）。然后对其进行微调，使其能够根据过去的视频和文本提示词生成未来的视频世界。

视频到世界生成模型是一种基于当前观测和提示词预测未来的预训练世界模型。

对于扩散模型和自回归模型的WFM，研究者构建了一系列具有不同容量的模型，并研究了其在各种下游应用中的有效性。

他们进一步微调了预训练的扩散WFM，以开发一个扩散解码器来增强自回归模型的生成结果。

为了更好地控制WFM，他们还基于LLM构建了一个提示词上采样器。

WFM后训练

团队展示了预训练WFM在多个下游物理AI应用中的应用。

他们将预训练的WFM微调为以相机姿态作为输入提示词，这让他们能够在创建的世界中自由导航。此外他们还展示了如何微调预训练的WFM，以用于人形机器人和自动驾驶任务。

安全机制

为了安全使用开发的世界基础模型，研究者开发了一个安全机制，用于阻止有害的输入和输出。

Cosmos世界基础模型平台由几个主要组件组成：视频编辑器、视频分词器、预训练的世界基础模型、世界基础模型后训练样本，以及安全机制

他们相信，WFM对物理AI构建者有多种用途，包括（但不限于）：

策略评估

与其通过在真实世界中运行物理AI系统来评估训练后的策略，不如让物理AI系统的数字副本与世界基础模型交互。基于WFM的评估更加经济高效且节省时间。

通过WFM，构建者可以在未见过的环境中部署策略模型，这些环境在现实中可能无法获得。WFM帮助开发者快速排除不合格的策略，聚焦于潜力更大的策略。

策略初始化

策略模型根据当前观测和给定任务，生成物理AI系统需要执行的动作。建模世界动态模式的高质量WFM，可以作为策略模型的良好初始化。

这有助于解决物理AI中的数据稀缺问题。

策略训练

在强化学习设置中，WFM与奖励模型配对，可以作为物理世界的代理，为策略模型提供反馈。智能体通过与WFM的交互，逐步掌握解决任务的能力。

规划或模型预测控制

WFM可用于模拟物理AI系统在执行不同动作序列后，可能出现的未来状态，然后通过成本/奖励模块量化这些不同动作序列的表现。

物理AI可以根据整体模拟结果执行最佳动作序列（如在规划算法中），或以递归视界的方式执行（如在模型预测控制中）。

世界模型的准确性决定了这些决策策略的性能上限。

合成数据生成

WFM不仅可用于生成用于训练的合成数据，还可以微调为基于渲染元数据（如深度图或语义图）进行条件生成。条件 WFM可用于Sim2Rea 场景。

数据编辑

研究者提出了一种视频处理流程，用于为分词器和WFM生成高质量训练数据集。

如下图所示，流程包括5个主要步骤：1）分割，2）过滤，3）标注，4）去重，以及5）分片。

这些步骤均经过专门的优化，从而提高数据质量并满足模型训练的需求。

预训练数据集

研究者积累了大约2000万小时的原始视频，分辨率从720p到4k不等，并为预训练生成了大约10^8个视频片段，为微调生成了大约10^7个视频片段。

其中，涵盖了各种物理AI应用，并将训练视频数据集划分为以下类别：

驾驶（11%）
手部动作和物体操作（16%）
人体动作和活动（10%）
空间意识和导航（16%）
第一人称视角（8%）
自然动态（20%）
动态相机运动（8%）
合成渲染（4%）
其他（7%）

Tokenizer（分词器）

分词器是大模型的基础构建模块，它通过学习瓶颈式的潜空间，以无监督方式将原始数据转换为更高效的表示形式。

下图以示意图形式展示了分词训练流程，其目标是训练编码器和解码器，使瓶颈式token表示能够最大程度保留输入的视觉信息。

视频分词流程：输入视频被编码为token，解码器随后从这些token中重建输入视频。分词器的训练目标是学习编码器和解码器，尽可能保留token中的视觉信息

连续分词器将视觉数据编码为连续的潜嵌入，并用于通过从连续分布中采样生成数据的模型。

离散分词器将视觉数据编码为离散的潜代码，并将其映射为量化索引。这种离散表示对于使用交叉熵损失训练的模型（如GPT）是必要的。

分词器的成功很大程度上取决于其在不损害后续视觉重建质量的情况下提供高压缩率的能力。

在此，研究者提出了一套视觉分词器——包括用于图像和视频的连续和离散分词器。它们可以提供卓越的视觉重建质量和推理效率，并支持多种压缩率，以适应不同的计算限制和应用需求。

连续和离散分词器的可视化：（左）连续潜嵌入，嵌入大小为C；（右）量化索引，每种颜色代表一个离散的潜编码

具体来说，Cosmos分词器采用轻量化且计算高效的架构，并结合时间因果机制。

通过使用因果时间卷积层和因果时间注意力层，可以保留视频帧的自然时间顺序，从而通过单一统一的网络架构实现图像和视频的无缝分词。

通过在高分辨率图像和长时视频上直接训练分词器，可以不受类别或宽高比的限制，包括1:1、3:4、4:3、9:16和16:9等。

在推理阶段，它对时间长度不敏感，能够处理超出训练时时间长度的视频分词。

不同视觉分词器及其功能的比较

评估结果表明，Cosmos分词器在性能上显著超越了现有分词器——不仅质量更高，而且运行速度最高可快12 倍。

此外，它还可以在单块NVIDIA A100 GPU（80GB显存）上一次性编码长达8秒的1080p视频和10秒的720p视频，且不会耗尽内存。

连续分词器（左）和离散分词器（右）在时空压缩率（对数刻度）与重建质量（PSNR）上的比较。每个实心点表示一种分词器配置，展示了压缩率与质量之间的权衡关系

世界基础模型预训练

研究者利用两种不同的深度学习范式——扩散模型和自回归模型——来构建两类WFM。

本文中所有WFM模型都是在一个包含10,000个NVIDIA H100 GPU的集群上训练的，训练周期为三个月。

基于扩散模型和自回归模型的世界基础模型（WFM）

自回归世界基础模型生成的视频

研究者展示了如何将Cosmos WFM进行微调，以支持多种场景，包括3D视觉导航，让不同的机器人执行任务，以及自动驾驶。

世界基础模型后训练

用于机器人的WFM后训练

世界模型具有支持机器人操作的强大潜力，这里展示了两个任务：（1）基于指令的视频预测,（2）基于动作的下一帧预测。

对于基于指令的视频预测，输入是机器人当前视频帧以及文本指令，输出是预测的视频。基于动作的下一帧预测，输入是机器人的当前视频帧以及当前帧与下一帧之间的动作向量，输出是预测的下一帧，展示机器人执行指定动作的结果。

对于基于指令的视频预测，研究者创建了一个名为Cosmos-1X的数据集。该数据集包含大约200小时的由EVE（1x.Tech公司的一款人形机器人）捕捉的第一视角视频，包括导航、折叠衣物、清洁桌面、拾取物体等。

对于基于动作的下一帧生成，团队使用了一个名为Bridge的公开数据集。Bridge数据集包括大约20,000个第三人称视角的视频，展示了机器人手臂在厨房环境中执行不同任务的过程。

用于自动驾驶的后训练

研究者展示了如何对预训练的WFM进行微调，从而创建一个适用于自动驾驶任务的多视角世界模型。

研究者策划了一个内部数据集，称为真实驾驶场景（RDS）数据集。该数据集包含大约360万个20秒的环视视频片段，这些视频是通过英伟达的内部驾驶平台录制的。

研究者使用RDS数据集对Cosmos-1.0-Diffusion-7B-Text2World进行微调，打造出一个多视角的世界模型。

Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView-TrajectoryCond模型结果

一些演示

从GitHub主页中，我们能够看到Cosmos家族的所有模型系列：扩散模型和自回归模型各4个。

扩散模型7B和14B（Text2World）根据同一提示，生成效果如下：

扩散模型7B和14B（Video2World）根据同一提示，生成效果如下：

自回归模型4B和12B生成效果如下：

自回归模型5B和13B根据同一提示，生成效果如下：

此外，后训练世界基础模型还能实现「相机控制」，如下机器人在车厂的生成视频中，通过移动能够看到四周环境全貌。

提示：这段视频展示了一座先进的制造设施，其中多台机器人手臂协同工作。这些机器人配备了特殊的抓取装置，正在中央平台上处理和组装组件。环境干净且井然有序，背景中可以看到各种机械和设备。整个机器人系统高度自动化，体现了高科技的生产流程。

更惊喜的是，Cosmos还能根据提示，生成出各种机器人在不同环境中的预测场景。比如，把书放在书架上，煮咖啡、分拣物品......

也就是说，以后机器人的模拟训练，直接在物理世界就能实操了！

还有针对自动驾驶场景，Cosmos进行的多视图视频生成。

要知道，以下这些场景是完全不存在的。

有网友调侃道，我们一定生活在模拟世界中，99%情况下是由英伟达撑着这个系统。

物理AI，不能没有WFM

为什么说世界模型，对于物理AI的实现非常关键？

老黄在大会上，从大模型工作原理生动地阐释了世界模型的重要性——

大模型通常是根据提示一次生成一个token，但也仅限内容token的输出。若要实现从「内容token」转向「动作token」的输出，语言模型早已无法满足。

我们需要的是，一个能够理解物理世界的模型，简之WFM。

昨天，英伟达研究副总Ming-Yu Liu在最新播客中同样表示，WFM是一种能够模拟物理世界的强大神级网络。

它可以从文本/图像输入数据，生成详细的视频，并通过将其的当前状态（图像/视频）与动作（提示/控制信号）相结合来预测场景的演变。

WFM能够想象许多不同的环境，并可以模拟未来，帮助物理AI开发者做出更好的决策。

另一方面，构建世界模型通常需要大量的数据集。

数据收集不仅耗时，成本也高，WFM便可以生成合成数据，从而增强训练的过程。

此外，物理测试风险巨大，比如一台价值数十万美元的机器人原型的任何失误都可能带来重大损失。

有了WFM模拟的3D环境，研究者就可以在受控环境中训练和测试物理AI系统。

物理模拟世界的一切，英伟达Cosmos都能帮你生成出来。

假设你要测试一台机器人，长传一个原视频，然后输入：

「以人形机器人的第一人称视角拍摄在一个老旧工厂中工作的场景。机器人周围有许多工业机械设备。地板是老旧的木质地板，破旧且具有丰富的纹理。摄像机在距离地面2米的高度向右平移。照片风格要求逼真」。

然后，一个机器人在工厂工作的虚拟画面就出现了。

包括如下自动驾驶场，都是由Cosmos完全生成。

不仅如此，英伟达还将Cosoms与Omniverse搭配使用，虚实结合，让虚拟世界的设计搬到现实世界训练。

一直以来，老黄都在强调一个新概念「三台计算机」：一台是DGX用来训练AI，另一台AGX用来部署AI，最后一台便是Omniverse+Cosmos。

若是连接前两者，我们就需要一个数字孪生。

老黄认为，「未来，每一个工厂都有数字孪生，你可以将Omniverse和Cosoms结合，生成一大批未来场景」。

参考资料：

https://github.com/NVIDIA/Cosmos

https://x.com/DrJimFan/status/1876516972512559170

https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai

https://www.nvidia.com/en-us/ai/cosmos/

https://research.nvidia.com/labs/dir/cosmos1/

....

#通义万相视频生成重磅升级

成功登顶VBench，运镜、质感直达专业级

025 才刚开始，AI 视频生成就要迎来技术突破了？

今天上午，阿里旗下通义万相视频生成模型宣布了 2.1 版重磅升级。

新发布的模型有两个版本，分别是通义万相 2.1 极速版和专业版，前者注重高效性能，后者瞄准卓越表现力。

据介绍，通义万相此次全面升级了模型整体性能，尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展，为 AI 的艺术创作打开了新的大门。

我们先来一睹视频生成效果，看看能不能惊艳到你。

先以经典的「切牛排」为例，可以看到，牛排的纹理清晰可见，表面覆盖着一层薄薄的油脂，闪烁着光泽，刀锋沿着肌肉纤维缓缓切入，肉质 Q 弹，细节拉满。

Prompt: 在餐厅里，一个人正在切一块热气腾腾的牛排。在特写俯拍下，这个人右手拿着一把锋利的刀，将刀放在牛排上，然后沿着牛排中心切开。这个人穿着黑色衣服，手上涂着白色指甲油，背景是虚化的，有一个白色的盘子，里面放着黄色的食物，还有一张棕色的桌子。

再来看一个人物特写生成效果，小女孩的面部表情、手部和肢体动作都很自然协调，风掠过头发也符合运动规律。

Prompt：可爱少女站在花丛中，双手比心，周围跳动着各种小爱心。她穿着粉色连衣裙，长发随风轻扬，笑容甜美。背景是春日花园，鲜花盛开，阳光明媚。高清写实摄影，近景特写，自然光线柔和。

模型强不强，再来跑个分。目前，在权威视频生成评测榜单 VBench Leaderboard 上，升级后的通义万相以总分 84.7% 的成绩登上榜首位置，超越了 Gen3、Pika、CausVid 等国内外视频生成模型。看起来，视频生成的竞争格局又迎来了一波新变化。

榜单链接：https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

即日起，用户就可以在通义万相官网用上最新一代模型了。同样地，开发者也可以在阿里云百炼调用大模型 API。

官网地址：https://tongyi.aliyun.com/wanxiang/

一手实测

表现力提升，还能玩转特效字体

最近一段时间，视频生成大模型的迭代速度很快，新版本的通义万相有没有实现代差级别的提升？我们进行了一番实际测试。

AI 视频会写字了

首先，AI 生成的视频终于能告别「鬼画符」了。

此前，市面上主流 AI 视频生成模型一直无法准确地生成中英文，只要是该有文字的地方，就是一堆难以辨认的乱码。如今这一行业难题被通义万相 2.1 破解了。

它成为了首个具备支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型。

现在，用户只需输入简短的文字描述，即可生成具有电影级效果的文字和动画。

比如一只小猫正在电脑前打字，画面依次跳出「不工作就没饭吃」7 个大字。

，时长00:05

通义万相生成的视频中，猫咪坐在工位上一本正经地敲键盘、按鼠标，模样像极了当代打工人，弹出的字幕再加上自动生成的配乐，让整个画面都更具诙谐感。

再比如从一个橘色的正方体小盒子里跳出英文单词「Synced」。

，时长00:05

无论是生成中文还是英文，通义万相都能搞定，没有错别字，也没出现「鬼画符」。

不仅如此，它还支持多种场景下的字体应用，包括特效字体、海报字体以及真实场景中的字体展示等。

比如在塞纳河畔的埃菲尔铁塔附近，绚烂的烟花在空中绽放，随着镜头拉近，粉色数字「2025」逐渐变大，直到充斥整个画面。

，时长00:05

大幅度运动不再「鬼畜」

复杂的人物运动一度是 AI 视频生成模型的「噩梦」，以往 AI 生成的视频要么手脚乱飞、大变活人，要么出现「只转身不转头」的诡异动作。

而通义万相通过先进的算法优化和数据训练，能够在多种场景下实现稳定的复杂运动生成，特别是在大幅度肢体运动和精确的肢体旋转方面。

比如下面这则生成视频中，男子奔跑时动作流畅自然，没有出现左右腿不分或者扭曲变形的问题。而且它还很注重细节，男子每一次脚尖触地都会留下印迹，并微微扬起细沙。

，时长00:05

Prompt：日落时分，金色的阳光洒在波光粼粼的海面上，一名年轻帅气的男子沿着沙滩奔跑，稳定跟踪镜头。

难度较大的滑雪视频它也能生成。

女孩身着滑雪装备，在阿尔卑斯山的雪坡上滑行。她灵活地控制着滑雪板，时而加速，时而转弯，高速运动下甩起的马尾辫、卷起的积雪让镜头更加逼真。

，时长00:05

Prompt：一个年轻女孩在阿尔卑斯山滑雪

由此可见，它在物理规律理解方面也有着显著提升，能够模拟出真实感十足的视频，避免出现「一眼假」的情况。

运镜媲美电影大师

大导演斯皮尔伯格曾说过：一场好电影的秘诀就在于镜头语言。为了拍出震撼的电影镜头，摄影师们恨不得上天入地、飞檐走壁。

不过在这个 AI 时代，「拍」电影就容易了许多。

我们只需输入一句简单的文本指令，比如镜头左移、镜头拉远、镜头推进等，通义万相就能自动根据视频的主体内容和运镜需求输出合理的视频。

我们输入 Prompt：摇滚乐队在前院草坪上演出，随着镜头的推进，画面聚焦到吉他手身上，他身穿皮夹克，一头凌乱的长发随节奏摆动。吉他手的手指在琴弦上快速跳跃，背景中其他乐队成员也在全情投入。

，时长00:05

通义万相 2.1 严格遵循了指令。视频一开始，吉他手、鼓手激情演奏，随着摄影机缓慢拉近，背景逐渐模糊，画面放大，突出了吉他手的神态和手部动作。

再来一个拉远镜头的视频。

一个年轻侦探的眼睛特写，镜头拉远，男子正站在一条繁华的街上，身后是摩天大楼和静止的汽车，仿佛时间被定格一般。

，时长00:05

长文本指令不会丢三落四

要想 AI 生成的视频效果达到惊艳水准，必然离不开精准的文本提示。

然而，有时大模型「记性」有限，面对包含各种场景切换、角色互动和复杂动作的文本指令，它就容易丢三落四，不是遗漏细节，就是搞不清逻辑顺序。

上新后的通义万相在长文本指令遵循方面就有了较大的进步。

Prompt: 一位摩托车骑手在狭窄的城市街道上以极快的速度疾驰，避开了附近建筑物发生的大爆炸，火焰猛烈地咆哮着，投射出明亮的橙色光芒，碎片和金属碎片在空中飞舞，加剧了现场的混乱。身着深色装备的车手，弯腰紧握车把，神情专注，他以极快的速度向前冲去，丝毫不畏惧身后的火光冲天。爆炸留下的浓浓黑烟弥漫在空中，将背景笼罩在世界末日般的混乱之中。然而，骑手依然不屈不挠，准确无误地在混乱中穿梭，极富电影感，超精细细节，身临其境，3D，动作连贯。

，时长00:05

在以上这段长篇大论般的文本描述中，狭窄的街道、明亮的火焰、弥漫的黑烟、乱飞的碎片以及身着深色装备的骑手…… 这些细节都被通义万相捕捉到。

通义万相还具备更强大的概念组合能力，能够准确理解各种不同的想法、元素或者风格，并将其组合在一起，创造出全新的视频内容。

一位穿着西装的老人从鸡蛋中破壳而出，瞪大双眼紧盯镜头的白发老头，再配上公鸡咯咯叫的声音，画面相当搞笑。

，时长00:05

擅长卡通油画等多种风格

新版通义万相还能生成电影质感的视频画面，同时对各类艺术风格也有很好的支持，比如卡通、电影色、3D 风格、油画、古典等风格。

造型奇特的外星船锈迹斑驳，背着氧气瓶的宇航员摆动双腿在水下沉潜，整个镜头都很有科幻电影的 feel。

，时长00:05

Prompt：电影质感，一名宇航员正在探索一艘水下外星船残骸。

再来看这个 3D 动画风格的小怪兽，站在葡萄藤上手舞足蹈，甚是可爱。

Prompt：一只毛茸茸的快乐的青提小怪兽站在葡萄树树枝上快乐的歌唱，逆时针旋转镜头。

此外，它还支持不同长宽比，涵盖 1:1、3:4、4:3、16:9 和 9:16 五个比例，能够更好适配电视、电脑、手机等不同终端设备。

从以上表现来看，我们已经可以使用通义万相进行一些创作，把灵感转化为「现实」了。

当然这一系列进步，还得归功于阿里云在视频生成基础模型上的升级。

基础模型大幅优化

架构、训练、评估全方位「变身」

去年 9 月 19 日，阿里云在云栖大会上发布了通义万相视频生成大模型，带来了影视级高清视频的生成能力。作为阿里云全自研的视觉生成大模型，它采用了 Diffusion + Transformer 的架构，支持图像和视频生成类任务，在模型框架、训练数据、标注方式和产品设计上均有诸多创新，提供了业界领先的视觉生成能力。

此次升级后的模型中，通义万相团队（以下简称团队）进一步自研了高效的 VAE 和 DiT 架构，针对时空上下文关系的建模进行了增强，显著优化了生成效果。

Flow Matching（流匹配）是近年来新兴的一种生成模型训练框架，其训练过程更简单，通过连续正则化流（Continuous Normalizing Flow）可以取得与扩散模型相当甚至更优的生成质量，并且推理速度更快，也因而逐渐开始应用于视频生成领域，比如 Meta 此前推出的视频模型 Movie Gen 便使用了 Flow Matching。

在训练方法选择上，通义万相 2.1 采用了基于线性噪声轨迹的 Flow Matching 方案，并针对该框架进行了深度设计，使得模型收敛性、生成质量和效率均得到提升。

通义万相 2.1 视频生成架构图

针对视频 VAE，团队结合缓存机制与因果卷积，设计了一种创新的视频编解码方案。其中缓存机制可以在视频处理中保持必要的信息，从而减少重复计算，并提升计算效率；因果卷积能够捕获视频的时序特征，适应视频内容的递进变化。

在具体实现中，通过将视频拆分为若干块（Chunk）并缓存中间特征，代替了直接对长视频的 E2E 解码过程，使显卡的使用仅与 Chunk 大小相关，而无需考虑原始视频长度，让模型可以对无限长的 1080P 视频进行高效编解码。团队表示，这一关键技术为任意时长视频的训练提供了一种可行路径。

下图显示了不同 VAE 模型的结果对比。从模型计算效率（帧 / 延迟）和视频压缩重构（峰值信噪比，PSNR）指标来看，通义万相采用的 VAE 在参数不占优的情况下，依然实现了业内领先的视频压缩重构质量。

注：圆圈面积代表了模型参数大小。

团队在 DiT（Diffusion Transformer）上的核心设计目标是实现强大的时空建模能力，同时保持高效的训练过程。做到这些需要进行一些创新性改变。

首先，为了提高时空关系的建模能力，团队采用了时空全注意力机制，使模型能够更准确地模拟现实世界的复杂动态。其次，参数共享机制的引入，在提升性能的同时有效降低了训练成本。此外，团队针对文本嵌入做了性能优化，使用交叉注意力机制来嵌入文本特征，既达成了更优的文本可控性，也降低了计算需求。

得益于这些改进和尝试，在相同计算成本的情况下，通义万相的 DiT 结构实现了更明显的收敛优越性。

除了模型架构上的创新，团队在超长序列训练与推理、数据构建管线与模型评估方面同样进行了一些优化，使模型可以高效处理复杂生成任务，并具备更强的效率优势。

百万超长序列的高效训练如何炼成

在处理超长视觉序列时，大模型往往面临着计算、内存、训练稳定性、推理延迟等多个层面的挑战，因而要有高效的应对方案。

为此，团队结合了全新模型工作负载的特点和训练集群的硬件性能，制定出了分布式、显存优化的训练策略，在保证模型迭代时间的前提下优化训练性能，最终达到了业界领先的 MFU，并实现了 100 万超长序列的高效训练。

一方面，团队创新分布式策略，采用了 DP、FSDP、RingAttention、Ulysses 混合的 4D 并行训练，训练性能和分布式扩展性双双得以增强。另一方面，为了实现显存优化，团队基于序列长度带来的计算量和通信量，采用分层的显存优化策略来优化 Activation 显存并解决了显存碎片问题。

另外，计算优化可以提高模型训练效率并节省资源，为此团队采用 FlashAttention3 进行时空全注意力计算，并结合训练集群在不同尺寸上的计算性能，选择合适的 CP 策略进行切分。同时针对一些关键的模块去除计算冗余，并通过高效的 Kernel 实现来降低访存开销、提升计算效率。在文件系统方面，团队充分利用阿里云训练集群中高性能文件系统的读写特性，通过分片 Save/Load 方式提升读写性能。

4D 并行分布式训练策略

与此同时，针对训练中因 Dataloader Prefetch 、CPU Offloading 和 Save Checkpoint 导致的内存溢出（OOM）问题，团队选择错峰内存使用方案。并且，为了保证训练稳定性，团队借助了阿里云训练集群的智能化调度、慢机检测以及自愈能力，实现了自动识别故障节点并快速重启任务。

数据构建与模型评估引入自动化

视频生成大模型的训练离不开规模化的高质量数据和有效的模型评估，前者可以确保模型学习到多样化的场景、复杂的时空依赖关系并提高泛化能力，构成模型训练的基石；后者有助于监督模型表现，使其更好地达到预期效果，成为模型训练的风向标。

在数据构建上，团队以高质量为准绳，打造出了一套自动化的数据构建管线，在视觉质量、运动质量等方面与人类偏好分布保持高度一致，从而可以自动构建高质量的视频数据，并呈现出高多样性、均衡分布等特征。

在模型评估上，团队同样设计了一套全面的自动化度量机制，将美学评分、运动分析和指令遵循等二十几个维度纳入其中，并针对性地训练出了能够对齐人类偏好的专业打分器。在这些度量指标的有效反馈下，模型迭代和优化过程显著加快。

可以说，架构、训练和评估等多个方面的协同创新，让升级后的通义万相视频生成模型在实际体验中收获了显著的代际提升。

视频生成的 GPT-3 时刻

还有多久？

自去年 2 月，OpenAI 的 Sora 问世以来，视频生成模型成为了科技界竞争最为激烈的领域。国内到海外，创业公司到科技大厂都在纷纷推出自家的视频生成工具。然而相对于文字的生成，AI 视频想要做到人们可以接受的程度，难度高了不止一个等级。

如果像 OpenAI CEO 山姆・奥特曼说的那样，Sora 代表了视频生成大模型的 GPT-1 时刻。那么我们在此基础上实现文本指令对 AI 的精准化控制、角度和机位的可调整、保证角色的一致性等视频生成该有的能力，再加上快速变换风格场景这样 AI 独有的功能，或许就可以很快迎来新的「GPT-3 时刻」。

从技术发展的路径来看，视频生成模型是一个验证 Scaling Laws 的过程。随着基础模型能力的提升，AI 将会越来越懂人类的指令，并能创造出越来越真实合理的环境。

从实践的角度看，我们其实早就已经迫不及待了：自去年起，不论短视频、动画领域，甚至影视行业的人们都已经开始利用视频生成 AI 进行创作探索。如果我们可以突破现实的限制，用视频生成 AI 做以前无法想象的事，新一轮行业变革就在眼前。

现在看来，通义万相已经率先迈出了一步。

#智元机器人推出全球首个4D世界模型EnerVerse

如何让机器人在任务指引和实时观测的基础上规划未来动作，一直是领域的核心科学问题。然而，这一目标的实现受两大关键挑战制约：

模态对齐：需在语言、视觉和动作等多模态空间中建立精确的对齐机制。
数据稀缺：缺乏规模化、多模态且具备动作标签的数据集。

针对上述难题，智元机器人团队提出了 EnerVerse 架构，通过自回归扩散模型（autoregressive diffusion），在生成未来空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型，EnerVerse 深度结合任务需求，创新性地引入稀疏记忆机制（Sparse Memory）与自由锚定视角（Free Anchor View, FAV），在提升 4D 生成能力的同时，实现了动作规划性能的显著突破。实验结果表明，EnerVerse 不仅具备卓越的未来空间生成能力，更在机器人动作规划任务中实现了当前最优（SOTA）表现。

项目主页与论文已上线，模型与相关数据集即将开源：

主页地址：https://sites.google.com/view/enerverse/home
论文地址：https://arxiv.org/abs/2501.01895

如何让未来空间生成赋能机器人动作规划？

机器人动作规划的核心在于基于实时观测和任务指令，预测并完成一系列复杂的未来操作。然而，现有方法在应对复杂任务时存在如下局限：

通用模型局限性：当前通用视频生成模型缺乏对场景的针对性优化，无法适应任务中的特殊需求。
视觉记忆泛化能力不足：现有方法依赖稠密连续的视觉记忆，容易导致生成长程任务序列时逻辑不连贯，动作预测性能下降。

为此，EnerVerse 通过逐块生成的自回归扩散框架，结合创新的稀疏记忆机制与自由锚定视角（FAV）方法，解决了上述瓶颈问题。

技术方案解析

逐块扩散生成：Next Chunk Diffusion

EnerVerse 采用逐块生成的自回归扩散模型，通过逐步生成未来空间来引导机器人动作规划。其关键设计包括：

扩散模型架构：基于结合时空注意力的 UNet 结构，每个空间块内部通过卷积与双向注意力建模；块与块之间通过单向因果逻辑（causal logic）保持时间一致性，从而确保生成序列的逻辑合理性。
稀疏记忆机制：借鉴大语言模型（LLM）的上下文记忆，EnerVerse 在训练阶段对历史帧进行高比例随机掩码（mask），推理阶段以较大时间间隔更新记忆队列，有效降低计算开销，同时显著提升长程任务的生成能力。
任务结束逻辑：通过特殊的结束帧（EOS frame），实现对任务结束时机的精准监督，确保生成过程在合适节点终止。

灵活的 4D 生成：Free Anchor View (FAV)

针对操作中复杂遮挡环境和多视角需求，EnerVerse 提出了自由锚定视角（FAV）方法，以灵活表达 4D 空间。其核心优势包括：

自由设定视角：FAV 支持动态调整锚定视角，克服固定多视角（fixed multi-anchor view）在狭窄场景中的局限性。例如，在厨房等场景中，FAV 可轻松适应动态遮挡关系。
跨视角空间一致性：基于光线投射原理（ray casting），EnerVerse 通过视线方向图（ray direction map）作为视角控制条件，并将 2D 空间注意力扩展为跨视角的 3D 空间注意力（cross-view spatial attention），确保生成视频的几何一致性。
Sim2Real 适配：通过在仿真数据上训练的 4D 生成模型（EnerVerse-D）与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代，EnerVerse 构建了一个数据飞轮，为真实场景下的 FAV 生成提供伪真值支持。

高效动作规划：Diffusion Policy Head

EnerVerse 通过在生成网络下游集成 Diffusion 策略头（Diffusion Policy Head），打通未来空间生成与机器人动作规划的全链条。其关键设计包括：

高效动作预测：生成网络在逆扩散的第一步即可输出未来动作序列，无需等待完整的空间生成过程，确保动作预测的实时性。
稀疏记忆支持：在动作预测推理中，稀疏记忆队列存储真实或重建的 FAV 观测结果，有效提升长程任务规划能力。

实验结果

1. 视频生成性能

在短程与长程任务视频生成中，EnerVerse 均展现出卓越的性能：

在短程生成任务中，EnerVerse 表现优于现有微调视频生成模型，如基于 DynamiCrafter 与 FreeNoise 的扩散模型。
在长程生成任务中，EnerVerse 展现出更强的逻辑一致性与连续生成能力，这是现有模型无法实现的。

此外，EnerVerse 在 LIBERO 仿真场景和 AgiBot World 真实场景中生成的多视角视频质量也得到了充分验证。

其对应的生成视频如下所示：

，时长00:09

，时长00:05

2. 动作规划能力

在 LIBERO 基准测试中，EnerVerse 在机器人动作规划任务中取得显著优势：

单视角（one FAV）设定：EnerVerse 在 LIBERO 四类任务中的平均成功率已超过现有方法。
多视角（three FAV）设定：进一步提升任务成功率，在每一类任务上均超越当前最佳方法。

值得注意的是，LIBERO-Long上均为需要机器多步执行的任务，如下视频所示：

，时长00:11

3. 消融与训练策略分析

稀疏记忆机制：消融实验表明，稀疏记忆对长程序列生成的逻辑合理性及长程动作预测精度至关重要。

二阶段训练策略：先进行未来空间生成训练，再进行动作预测训练的二阶段策略，可显著提升动作规划性能。

4. 注意力可视化

通过可视化 Diffusion 策略头中的交叉注意力模块，研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了 EnerVerse 在未来空间生成与动作规划任务中的相关性与优势。

智元机器人通过 EnerVerse 架构开创了未来的新方向。通过未来空间生成引导动作规划，EnerVerse 不仅突破了机器人任务规划的技术瓶颈，还为多模态、长程任务的研究提供了全新范式。

....

#SPAR3D

一秒内从单个图像生成3D对象，支持实时编辑，Stability AI推出3D生成新方法SPAR3D

2D 升维成 3D 的过程中，可见部分和不可见部分可以分开建模。

2025 年来了，3D 生成也迎来了新突破。

刚刚，Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D（Stable Point Aware 3D），旨在为游戏开发者、产品设计师和环境构建者开拓 3D 原型设计新方式。

无论是精致的艺术品，还是纹理复杂的日常用品，SPAR3D 都能提供精确的几何形状和完整的 360 度视图的详细预测，包括通常隐藏的区域（例如物体的背面）：

值得一提的是，SPAR3D 还引入了实时编辑功能，能在不到一秒的时间内从单个图像生成 3D 对象的完整结构。

SPAR3D 是一种新颖的两阶段方法：第一阶段使用轻量级点扩散模型生成稀疏 3D 点云，采样速度快；第二阶段使用采样点云和输入图像来创建高度详细的网格。

这种两阶段设计能够对不适定的单图像 3D 任务进行概率建模，同时保持高计算效率和出色的输出保真度。使用点云作为中间表征还进一步允许交互式用户编辑。在不同的数据集上进行评估后，SPAR3D 表现出了优于 SOTA 方法的性能。

论文标题：SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images
论文链接：https://static1.squarespace.com/static/6213c340453c3f502425776e/t/677e3bc1b9e5df16b60ed4fe/1736326093956/SPAR3D+Research+Paper.pdf

简单来说，SPAR3D 具有如下优势：

前所未有的控制：允许用户通过删除、复制、拉伸、添加特征或重新着色点来直接编辑点云。
完整的结构预测：通过提供精确的几何形状和完整的 360 度视图的详细预测来增强 3D 构建。
闪电般快速生成：仅需 0.3 秒即可将编辑后的点云转换为最终网格，实现无缝实时编辑。从单个输入图像，SPAR3D 仅需 0.7 秒即可为每个对象生成高度详细的 3D 网格。

SPAR3D

基于点云采样的单图像三维物体重建

从一张图像重建 3D 物体是一个具有挑战性的逆向工程问题：尽管可以通过分析图像中的光影来推测物体的可见表面形状，但要准确预测被遮挡的部分，需要丰富的 3D 先验知识作为支撑。

目前该领域主要有两个发展方向：前馈回归和基于扩散的生成。基于回归的模型虽然推理速度快，但对重建有遮挡的区域效果不佳。而基于扩散的方法通过迭代采样可以生成多样化的 3D 结果，但计算效率低且与输入图像的对齐效果较差。

为了既能充分利用扩散模型在分布式学习方面的优势，又能避免输出质量差和计算效率低的问题，Stability AI 的研究团队设计了一个两阶段重建系统：SPAR3D。这个系统将 3D 重建过程分为点采样和网格化两个阶段，实现了高效率与高质量的平衡。

当输入一张图像

时，该方法可以生成一个包含 PBR 材质的 3D 网格模型，其中包括反照率、金属度、粗糙度和表面法线等属性。

该团队设计了一个包含点采样和网格化两个阶段的模型（如图 2 所示）。在点采样阶段，系统将使用点扩散模型来学习输入图像对应的点云分布。由于点云的分辨率较低，这个阶段能快速完成迭代采样。

在网格化阶段，系统通过回归方法将采样得到的点云转换为高细节网格，并利用局部图像特征确保与输入图像的准确匹配。

这种设计将复杂的不确定性计算集中在点采样阶段，让网格化阶段能够专注于生成高质量的细节。这不仅提升了整体效果，有效减少了纹理中不必要的光照影响，特别是在处理反光表面时效果更好。

选择点云作为连接两个阶段的中间表示是该方法的关键设计。点云不仅是计算效率最高的 3D 表示，因为所有信息都用于表示表面，其缺乏连接性的特点还为用户编辑提供了优势。

当 3D 生成的结果与用户期望不符时，可以在低分辨率点云上轻松进行局部编辑，无需担心拓扑结构。将编辑后的点云输入网格化阶段即可生成更符合用户需求的网格。这也使得 SPAR3D 在保持高计算效率和输入观察保真度的同时，显著优于以往的回归方法。

实验

主要结果

该团队在 GSO 和 Omniobject3D 数据集上对 SPAR3D 与其他基线方法进行了定量比较。如表 1 和表 2 所示，SPAR3D 在两个数据集的大多数评估指标上都显著优于其他回归或生成式基线方法。

图 5 展示了不同方法的定性结果对比：基于回归的方法 (如 SF3D、TripoSR) 生成的 3D 资产虽然与输入的图像保持了较好的一致性，但背面过于平滑；基于多视图扩散的方法（如 LGM、CRM）生成的 3D 资产虽然在背面保留了较多细节，但存在明显伪影；而纯生成方法（如 Shap-E、LN3Diff）虽然能生成清晰的表面轮廓，但细节经常出错。

相比之下，SPAR3D 不仅能忠实重现输入图像，还能合理生成被遮挡部分的细节。

图 6 进一步展示了其在真实场景图像上的出色泛化性能。

可编辑的结果

SPAR3D 采用显式点云作为中间表示，为用户提供了进一步编辑模型的能力。通过点云，用户可以灵活地修改重建网格的不可见部分。

图 7 展示了几个编辑示例，比如为 3D 模型添加关键组件，还能优化生成效果不理想的细节部分。

这种编辑方式简单高效，让用户能够根据需求轻松调整重建结果。

消融实验

研究团队通过消融实验验证了点采样阶段的关键作用。他们将 SPAR3D 简化为纯回归模型 SPAR3D w/o Point（移除点采样阶段），并在 GSO 和 Omniobject3D 数据集上进行对比。

实验结果显示，完整的 SPAR3D 明显优于简化版本，验证了该设计的有效性。

分析

该团队设计了实验来进一步理解 SPAR3D 的工作原理。在设计 SPAR3D 时，其核心假设是两阶段设计能有效分离单目 3D 重建中的不确定部分 (背面建模) 和确定性部分 (可见表面建模)。

理想情况下，网格化阶段应主要依靠输入图像重建可见表面，同时依靠点云生成背面。为验证这一点，研究团队进行了一个特殊的实验：故意将不匹配的数据输入系统（一张松鼠的图片配上一匹马的点云数据），以测试系统如何处理这种冲突的输入。

如图 8 所示，实验结果很有意思：重建模型的正面与松鼠对齐，而背面则遵循了点云马的形状。这个结果证实了系统确实能够分别处理可见和不可见部分的重建工作。

更多研究细节，请参阅原论文。

参考链接：

https://stability.ai/news/stable-point-aware-3d?utm_source=x&utm_medium=social&utm_campaign=SPAR3D

https://static1.squarespace.com/static/6213c340453c3f502425776e/t/677e3bc1b9e5df16b60ed4fe/1736326093956/SPAR3D+Research+Paper.pdf

....

#微软研究团队发布80页的大模型GUI智能体综述

引领人机交互革命

本论文的主要作者 Chaoyun Zhang、Shilin He、Liqun Li，Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队，为微软 Windows GUI Agent UFO 的核心开发团队的成员。

图形用户界面（Graphical User Interface, GUI）作为数字时代最具代表性的创新之一，大幅简化了人机交互的复杂度。从简单的图标、按钮、窗口到复杂的多应用工作流程，GUI 为用户提供了直观、友好的操作体验。然而，在自动化和智能化升级的过程中，传统的 GUI 操控方式始终面临诸多技术挑战。以往的脚本化或规则驱动方法在特定场景下确实有所帮助，但随着现代应用环境的日益复杂和动态化，它们的局限性愈发凸显。

近年，人工智能与大语言模型（Large Language Models, LLMs）的快速发展为此领域带来了变革性机遇。

近日，微软研究团队发布了一篇长达 80 页、逾 3 万字的综述论文《Large Language Model-Brained GUI Agents: A Survey》。这份综述系统梳理了大模型驱动的 GUI 智能体在现状、技术框架、挑战与应用等方面的研究进展。论文指出，通过将大语言模型（LLMs）与多模态模型（Visual Language Models, VLMs）相结合，GUI 智能体可以根据自然语言指令自动操作图形界面，并完成复杂的多步骤任务。这一突破不仅超越了传统 GUI 自动化的固有瓶颈，更推动了人机交互方式从「点击 + 输入」向「自然语言 + 智能操作」的跃迁。

链接：https://arxiv.org/abs/2411.18279

传统 GUI 自动化的局限与新挑战

过去数十年中，GUI 自动化技术主要依靠两大途径：

脚本化方法：如 Selenium、AutoIt 等工具依赖预先编写的固定脚本，以模拟点击、输入等操作。这类方法适用于相对稳定的界面和流程，但当界面频繁更新或布局动态变化时，脚本易失效且维护成本高。
规则驱动方法：根据预设规则识别 GUI 组件（如按钮、输入框）并执行相应操作。这类方法缺乏灵活性，难以应对复杂或非标准化的工作流程。

这些传统方法在面对高度动态、跨应用的复杂任务时显得力不从心。例如：

如何让自动化系统理解网页内容并从中提取用户所需的关键信息？
如何适应不同设备、操作系统上的多样化 GUI 界面？
如何在多步骤任务中保持上下文的连贯与一致性？

大模型：智能化 GUI 交互的引擎

图 1：GUI 智能体的概念展示。

微软的综述指出，大语言模型（LLM）在解决上述问题中发挥着关键作用，其优势主要体现在以下三个方面：

1. 自然语言理解与任务规划

以 GPT 系列为代表的大模型拥有出色的自然语言理解与生成能力。它们能够将用户简单直观的指令（如「打开文件，提取关键信息，然后发送给同事」）自动解析为一系列可执行的操作步骤。通过多步推理（Chain-of-Thought）和任务分解，智能体可逐步完成极为复杂的流程。

2. 视觉理解与环境感知

引入多模态技术后，视觉语言模型（VLM）可处理文本与视觉信息。通过分析 GUI 截图或 UI 结构树，智能体可以理解界面元素（按钮、菜单、文本框）的布局和含义。这为智能体提供了类似人类的视觉理解能力，使其能够在动态界面中执行精准操作。如自动在网页中定位搜索栏并输入关键词，或在桌面应用中找到特定按钮进行复制、粘贴操作。

3. 动态执行与自适应能力

相较传统脚本方法，使用大模型的 GUI 智能体能对实时反馈做出响应，并动态调整策略。当界面状态变化或出现错误提示时，智能体可以尝试新的路径与方案，而不再依赖固定的脚本流程。

图 2：GUI 智能体的发展和主要工作。

在大模型的加持下，GUI 智能体为人机交互带来了质变的提升。用户仅需自然语言指令，智能体即可完成原本需要繁琐点击和复杂操作才能达成的目标。这不仅降低了用户的操作和学习成本，也减少了对特定软件 API 的依赖，提升了系统通用性。如图 2 所示，自 2023 年以来，以大模型驱动的 GUI 智能体为主题的研究层出不穷，逐渐成为前沿热点。

GUI 智能体的核心架构

微软的综述指出，一个大模型驱动的 GUI 智能体通常包括以下关键组件，如图 3 所示：

图 3：GUI 智能体基本架构。

1. 操作环境感知

输入数据包括 GUI 截图、UI 结构树、元素属性（类型、标签、位置）以及窗口层级信息。通过 Windows UI Automation、Android Accessibility API 等工具，智能体可有效捕获界面信息。

2. 提示工程（Prompt Engineering）

智能体将用户指令与当前 GUI 状态相结合，构建输入提示（Prompt），并利用大语言模型生成下一步操作计划。例如：「用户指令 + 界面截图 + UI 元素属性」经过 LLM 处理后，智能体将输出明确的操作步骤（点击、输入、拖拽等）。

3. 模型推理

将构建好的 Prompt 输入 LLM 后，模型会预测后续的执行动作和计划步骤。

4. 操作执行

智能体根据 LLM 输出的高层指令进行实际操作，如鼠标点击、键盘输入或触摸操作，从而在网页、移动应用或桌面系统中完成任务。

5. 记忆机制

为应对多步骤复杂任务，GUI 智能体设计了短期记忆（STM）与长期记忆（LTM）机制，用于跟踪任务进度和历史操作，确保上下文的一致性与连贯性。

此外，更高阶的技术（如基于计算机视觉的 GUI 解析、多智能体协同、自我反思与进化、强化学习等）也在不断探索中。这些技术将使 GUI 智能体日益强大和完善。微软的综述已对这些前沿方向进行了详细论述。

GUI 智能体框架、数据、模型与测评：全面梳理与实践指南

微软的综述对该领域的发展路径进行了系统性总结，涵盖框架设计、数据采集、模型优化和性能测评，为研究者与开发者提供了完整的指导框架。

1. 框架设计：多平台适配与跨领域扩展

当下 GUI 智能体的框架设计根据应用场景和平台特性，可分为：

Web 平台智能体：如 WebAgent 与 SeeAct 基于 HTML DOM 或可视化特征，执行网页导航、数据抓取、表单填写等多步骤操作。
移动平台智能体：通过 iOS 和 Android 的 Accessibility API 获取 UI 层级结构，如 AppAgent、AutoDroid 可应对移动端复杂 UI 布局与多种手势操作。
桌面平台智能体：如微软的 UFO 智能体，通过分析 Windows、macOS 的 GUI 层级树和 API 调用来模拟键鼠操作，完成跨软件的任务执行。
跨平台智能体：如 AGUVI，通用框架可适应多种设备与系统，为跨平台自动化奠定基础。这类智能体具备更强的泛化能力，可自由迁移于不同平台之间。

这些框架的提出与验证，为 GUI 智能体在各类应用场景中落地提供了可能性，并为跨平台自动化打造了坚实基础。

2. 数据采集：高质量训练数据的构建

高效精准的 GUI 操作离不开丰富、真实的数据支撑，包括：

GUI 环境数据：截图、UI 元素属性（类型、标签、位置）、窗口层级信息等，为智能体提供视觉与结构化信息基础。
操作数据：用户真实交互记录，如点击、输入、手势等，为模型学习人类操作规律提供样本。

图 4：GUI 智能体数据采集流程。

这些数据为训练与测试提供了基础，也为领域标准化评估奠定了坚实的根基。图 4 展示了训练 GUI agent 的数据采集流程。

3. 大行动模型（LAM）：任务执行的核心优化

综述提出了「大行动模型」（Large Action Model, LAM）的概念，在 LLM 的基础上进行微调，以解决 GUI 智能体任务执行中的核心难题：

高效推理：在海量操作数据上进行微调后，LAM 可快速生成精准的操作指令，降低推理延迟。
精确执行：拥有高度泛化能力，可适应不同平台的 GUI 环境。
多步骤任务规划：支持复杂任务拆解与动态执行，连续完成多项操作，无需预定义脚本流程。

图 5：为 GUI 智能体微调「大行动模型」。

如图 5 所示，通过在真实环境中微调 LAM，智能体在执行效率与适应性上显著提升。

4. 测评方法与基准：评估 GUI 智能体的性能

图 6：GUI 智能体的测评流程。

测评是衡量智能体能力的重要手段。如图 6 所示，通过观察智能体执行任务的轨迹和日志记录，可以测评智能体各方面的能力。主要测评指标主要包括：

任务完成率：是否准确执行用户指令并完成特定任务。
执行效率：考察完成任务所需时间与步骤，尤其在资源受限硬件上的表现。
在特定规则下完成率：测试智能体在遵循用户提供的特定规则和策略下完成任务的能力。
风险比例：测试智能体识别和解决执行风险的能力。

领域内已出现一系列标准化 Benchmark，为 GUI 智能体的性能评价与对比提供了客观依据和平台。

GUI 智能体的实际应用：从高效测试到智能助理

1. 软件测试：从繁琐脚本到自然语言驱动的智能探索

传统的软件 GUI 测试常依赖冗长的脚本编写与重复的人工验证，既费时又容易遗漏关键场景。如今，借助大型语言模型（LLM）赋能的 GUI 智能体，我们迎来了一场测试领域的革新。这些智能体不再只是简单地重复固定脚本，而是能通过自然语言描述直接生成测试用例，对界面元素进行「自主探索」，并动态应对各种变化的用户界面。研究显示（如 GPTDroid、VisionDroid 和 AUITestAgent 等工具所展现的），智能体可在不需专业软件工程师深度介入的情况下，高效地捕捉潜在缺陷、追踪复杂交互路径，实现从输入生成、bug 重现到功能验证的全面自动化测试流程。

以字体大小调试为例，只需一句「请测试系统设置中更改字体大小的流程」，GUI 智能体便可自主导航界面、模拟用户点击、滑动选项，并在结果界面中精准确认字体调整是否生效。这样的自然语言驱动测试不但有效提高测试覆盖率与效率，即使非技术人员也能轻松参与质量保障过程。这意味着软件产品迭代速度的加快，以及开发与质量保证团队从重复劳动中解放，从而更专注于创新与优化。

2. 智能助手：从被动响应到多平台、多步骤的全能执行官

虚拟助手不再局限于简单的闹钟设定或天气查询。当 LLM 赋能的 GUI 智能体成为虚拟助手的「大脑」时，我们得到的是一位真正的「多面手」—— 可跨越桌面、手机、Web 浏览器和企业应用，以自然语言命令为指引，自动完成从文档编辑、数据表格分析，到复杂手机操作流程的各种任务。

这些智能体不仅能响应指令，还能根据上下文理解用户需求，并灵活适配不同界面元素。例如，它们可在移动端应用中自主查找隐藏的功能入口，为新用户演示如何截图；或在办公环境下，将一组跨平台数据整理后自动生成报告。在这类应用中，用户不必再为记忆繁琐的操作步骤烦恼，也不必面对复杂的流程而左右为难，只需以自然语言描述目标，智能体便能迅速解析上下文、定位界面组件并完成指令。通过持续学习与优化，这些智能助手还能越来越「懂你」，有效提升你的生产力与体验满意度。

综上，GUI 智能体在现实应用中已不仅仅是 “工具”，而更像一位全天候的 “数字助理” 和 “质量专家”。在测试领域，它们为软件品质保驾护航，大幅降低人力和时间成本；在日常与商务操作中，它们成为跨平台的多功能帮手，让用户能以更直观、更人性化的方式，与数字世界轻松互动。未来，随着技术的不断迭代升级，这些智能体将持续拓展应用边界，并为各行各业的数字化转型注入新的活力。

技术挑战与未来展望

尽管 GUI 智能体前景广阔，但微软的综述也明确指出目前的挑战所在：

隐私与安全：智能体需要访问用户界面内容，数据安全与隐私保护亟待完善。
推理延迟与硬件受限：大模型推理开销较大，需在性能与实时性间取得平衡。
安全与可信：确保智能体可靠执行任务，避免误操作与安全风险。
人机协同与交互策略：在复杂任务中平衡用户与智能体的决策与执行关系。
个性化与定制化：智能体如何学习用户偏好和习惯，从而更精确地满足用户需求。
道德与规范：保证智能体的决策透明、公平并负责任。
通用泛化性：面对不同设备、操作系统与复杂非标准界面元素的适配仍是难题。

展望未来，随着大语言模型与多模态技术的持续进化，GUI 智能体将在更多领域落地，为生产力与工作流程带来深刻变革。

结语：走向智能化交互新时代

大模型的兴起为 GUI 自动化打开了全新空间。当 GUI 智能体不再仅依赖固化的脚本与规则，而是借由自然语言与视觉理解来决策和执行操作时，人机交互方式发生了质的转变。这不仅简化了用户操作，更为智能助手、自动化测试等应用场景提供了强大支持。

随着技术的不断迭代与生态的日趋成熟，GUI 智能体有望成为日常工作与生活中的关键工具，让复杂的操作愈加智能、高效，并最终引领人机交互走向全新的智能化时代。

....

#个人跑大模型，英伟达「皮衣刀客」新出的Project DIGITS与M4 Mac Mini到底哪个好？

前些天，英伟达发布了一大堆东西，其中包括一款 AI 超级计算机 Project DIGITS，也在第一时间进行了报道，参阅《RTX5090 震撼发布，国行 16499 元起，黄仁勋「美国队长」pose 亮翻全场》。在这篇文章的评论区，一位读者的问题引发了不少争议。

虽然该问题的最高赞回复表示这是「英伟达被黑得最惨的一次」，但实际上使用 Mac Mini 作为个人的大模型运行平台并不是什么罕见操作。

Fast Company 甚至认为 M4 Mac Mini 是「测试 AI 的完美计算机」。

你也能在社交网络上找到许多用户分享的经验。

其实，上图中的这位 Alex Cheema 不仅仅是在 Mac Mini 上运行自己的个人 LLM 集群，也是在为自家公司 EXO Labs 做概念验证。其在今年初宣布推出了 EXO Gym 竞赛，开始测试能否在较慢的互联网带宽上实现有效的低延迟训练，而他们为此准备的 Mac Mini 数量更是多达 1000 台！是的，你没有看错，不只是使用 Mac Mini 来执行推理，还使用它们来训练模型。

当然，这种做法同样也是极具争议，不过有兴趣自己尝试的读者也可使用他们的开源软件库，目前该项目已经收获了超过 1.84 万 star。

GitHub 地址：https://github.com/exo-explore/exo

总之，至少在运行推理方面，看起来使用 Mac Mini 确实可行。现在，我们就来严肃地讨论一下这个问题：对于个人用户而言，如果想自己跑本地大模型，Mac Mini 和英伟达 Project DIGITS 到底选哪个更好？

参数对比

比较谁更胜一筹的最直观方法是比较它们的参数。

价格

首先来看价格。

根据芯片、内存和硬盘的不同配置，M4 和 M4 Pro 芯片的国行版 Mac Mini 价格从 4499 元到 35749 元人民币不等，国际版则是从 599 美元到 4699 美元不等。

而 Project DIGITS 目前已知的起售价为 3000 美元。而这个 3000 美元版本的配置情况大概是 128GB 内存和高达 4TB 的 NVMe 存储。

而 64GB 内存和 4TB 硬盘的 M4 Pro 版 Mac Mini 的官方价格就已经达到了 3199 美元起，超过了 Project DIGITS。

配备 12 核 CPU、16 核 GPU 和 16 核 Neural Engine 的 M4 Pro 芯片的 Mac Mini，当选择 64GB 内存和 4TB 硬盘时，售价为 3199 美元

因此至少在价格上，Project DIGITS 先拿下一分。

性能参数

目前，由于 Project DIGITS 还没上市，因此我们自然无法获取其与 Mac Mini 的直接性能对比数据，但我们可以通过一些基本的配置情况来进行最基础的评估。

首先是 CPU 和 GPU。Project DIGITS 采用的计算核心是 GB10 Superchip，由 Grace CPU 和 Blackwell GPU 组成。其中，Grace CPU 配置了 20 个采用 Arm 架构构建的高能效核心，GPU 则是先进的 Blackwell，采用了最新一代 CUDA 核心和第五代 Tensor Cores，可实现 1 PetaFLOP FP4 的 AI 计算。1 PetaFLOP！着实吓人，不过这是 FP4 精度的。如果等价到 FP16 精度，则可以说是 250 TFLOPS（当然这种算法很不严谨）。

英伟达表示，借助这款超级计算机，开发者可以运行多达 2000 亿参数的大型语言模型，从而加速 AI 创新。此外，借助 NVIDIA ConnectX 网络，还可将两台 Project DIGITS AI 超级计算机连接起来，运行多达 4050 亿参数的模型。也就是说，足以运行 Llama 3.1 405B。

而 Apple M4 Pro 芯片的 CPU 则是 12 核，其中包含 8 个性能核心与 4 个效率核心；GPU 则是 16 核版本。而其在 FP16 精度下的速度为 17 TFLOPS 。

根据 Alex Cheema 的计算，Project DIGITS 可以说在各个层面都碾压了 M4 Pro Mac Mini。

简单算算性价比：

Project DIGITS：250 TFLOPS / $3,000 ≈ 0.083 TFLOPS/美元
M4 Pro Mac Mini：17 TFLOPS / $2,200 ≈ 0.0077 TFLOPS/美元

也就是说，用同样的钱，能从 Project DIGITS 获得超过 M4 Pro Mac Mini 超过 10 倍的算力！

不过知乎用户 Karminski - 牙医也指出了 Project DIGITS 的一大不足。他表示「它是统一内存，即 CPU 和 CPU 共享 LPDDR5X。它不是 GDDR6，也不是 HBM2 的。」

虽然该设备的内存有 128 GB，「但是根据 Grace 架构 CPU 的 Product Brief，单 CPU 的内存带宽最大只有 512GB/s。所以如果用这个设备来运行大语言模型，瓶颈就会变成这个内存带宽。」

他也做了一番计算，得出的结论是「在 512GB/s 的情况下，运行 70b-4bit 规模的模型，生成速度理论最大值是 512/40=12.8 token/s。如果想要运行 200B 规模的模型 (200B4bit 量化大概是 114GB)，理论生成速度是 512/114≈4.5token/s」。

因此，Project DIGITS 可能也暗暗经受了老黄擅长的刀法。

Project DIGITS 果真赛高

整体来看，读者 Thomas Copper 确实没有说错，至少在 AI 计算任务上，Mac Mini 确实远远不及 Project DIGITS。但需要说明，Mac Mini 并不是专为 AI 任务打造，也适用于各种日常和工作任务。

之前不少人表示 Mac Mini 是实现 AI 普及化（democratize AI）的开始，但实际比较下来，或许真正的开始是英伟达 Project DIGITS！

不过也需指出，Project DIGITS 才刚刚露脸，预计要到 5 月份才上市，市场表现究竟如何还有待检验——毕竟我们到时才能真正知道「皮衣刀客」究竟刀了哪些地方。但至少从社交网络上的分享来看，已经有不少人准备好自己的钱包了。

对此，你有什么看法呢？

参考链接：

https://www.youtube.com/watch?v=GBR6pHZ68Ho

https://www.jeffgeerling.com/blog/2024/m4-mac-minis-efficiency-incredible

https://x.com/alexocheema/status/1876676954549620961

https://www.zhihu.com/question/8953765123/answer/73915191447

....

#DeepSeek R1 最新全面综述

近两个月的深度思考！

本文全面介绍了DeepSeek R1的技术细节和创新点，包括其三个核心阶段：R1-Zero（纯强化学习）、R1（推理能力提升与数据生成）和蒸馏（小模型能力提升）。文章还探讨了R1对LLM发展的深远影响，认为其通过推理时的自我反思和验证能力，将LLM推向了“深度思考时代”，其贡献不亚于ChatGPT的发布。

本文是《2025 iFLYTEK 开发者TALK 杭州站《DeepSeek深度技术解析》分享的文字版。由于时间关系，实际分享是本文的简化版。文字内容是近半个月陆陆续续记录的一些阅读笔记和思考，中途接到分享邀请（还好有点积累，不然怕是难顶doge），成稿于分享后。

分享PPT：

https://github.com/datawhalechina/hugging-llm/tree/main/resources

距离2022年底ChatGPT发布开启LLM时代才过去两年多一点时间，刚进入2025年，DeepSeek-R1就将LLM真正推向了深度思考时代。

两年多的高速发展，前所未有的按周迭代，如今想来都一阵恍惚。2023年是LLM最快速发展的一年，被称为LLM元年，新的开发范式出现（感兴趣的读者可以关注HuggingLLM（https://github.com/datawhalechina/hugging-llm）），全民AI浪潮涌现。2024年，基于LLM的应用已经开始成熟，Agent百花齐放，进入元年，各种应用层出不穷，一个人公司成为可能。

当我们以为LLM基本就这样按部就班向”应用“时，R1出现了，它发迹于OpenAI-o1，但超越了o1。关于o1，我的观点和OpenAI前首席研究官Bob的观点一致：它的目标是解决复杂问题，大多数人日常工作中并不会遇到需要o1的需求（可以参考关于AI前沿的思考（https://yam.gift/2024/12/20/NLP/2024-12-20-Think-About-AI-and-Related/））。但是R1提升了LLM的整体能力，让模型真正在推理时进行自我反思和验证，这当然适用于复杂问题，但日常工作很多场景也能受益，AI更加像人。我觉得这是R1对整个行业的贡献，其作用不亚于ChatGPT的发布。

DeepSeek-R1：LLM进入深度思考时代

首先，我们来解读R1的论文，这篇论文本身不复杂，条理很清晰。论文核心内容可以概括为三个部分：R1-Zero、R1和蒸馏。各部分都可以简单概括为一句话。

R1-Zero=Pretrain（DeepSeek-V3-Base）+RL（GRPO），证明Pure Rule 的 RL也有效，表现出自我验证、反思、和生成长COT的能力。但有可读性差、语言混合问题。

R1=Pretrain+Cold-Start（SFT）+RL（提升推理能力）+生成数据和SFT监督数据微调Base（SFT）+RL（对齐），先提升推理能力，搞出数据，再提升LLM整体能力。

蒸馏=R1数据+学生模型SFT。蒸馏>RL，R1数据SFT的小模型能力得到提升，且优于强化学习+小模型。

真是再次证明了”数据决定上限，算法逼近上限“，也重新定义了什么叫”高质量数据“。

R1-Zero：RL的潜力

纯RL，基于规则，没有监督数据。

GRPO

放弃了通常与policy模型大小相同的critic模型，从群体分数来估计基线。具体来说，对每个q，GRPO从旧的policy采样一组输出，然后通过下面的目标函数优化policy。

其中，𝜀 和 𝛽 是超参，Ai是advantage，如下。

GRPO相比PPO要简单，但更重要的是它有效。

基于规则，没有ORM或PRM！包括精度奖励和格式奖励（把思考过程放在<think>和</think>之间）两种规则。

这真是振奋人心的发现！我个人对强化学习（以及基于规则）的执念已经很久了（可以追溯到2018年），之前很多次提到过（见后面附录1相关文章），也做过一些尝试，但一直没有取得很好的成果。看到R1论文的第一反应是不可能吧？自己跟着复现后真的是震惊到了，太漂亮了。

数据构造

训练数据基于如下模板构造：

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

其中的prompt就是相应的问题。这里有意将约束限制在这种结构格式上是为了避免任何特定于内容的偏差，如强制反射性推理或促进特定的问题解决策略，确保能够准确观察到模型在强化学习过程中的自然进展。

上面的模板是Base模型，Instruct模型也是类似的。

结果

非常漂亮的曲线，非常Nice的表现！而且，实际中还可以通过多数投票进一步提升性能，如红色曲线所示。

Self-evolution

然后是过程中表现出来的自我进化，它最引人注目的方面之一是随着推理时计算的增加，出现了复杂的行为。诸如反思（重新审视和重新评估先前的步骤）和探索解决问题的替代方法等行为。这些行为是自发产生的，是模型与强化学习环境交互的结果，而不是明确编程的、外部调整的结果。

Aha Moment

接下来是很多人津津乐道的Aha Moment，其实就是模型自动学习重新评估、检查或验证，即自我反思和错误修正，有点类似”恍然大悟“。它显示出强化学习的神奇之处：我们并没有明确告诉模型如何解决问题，而是通过提供适当的激励，让它自主发展出高级的解决问题策略。

Aha Moment可以看作是模型在”推理时思考“的表现，其外在表现就是出现类似确认、重新检查、评估、验证等词，并且回复长度增加。如下图所示。

但值得注意的是：

Aha Moment并不是只有这种情况才会有。
长度增加并不一定意味着结果变好，或模型在思考。

关于这点我们后面会专门介绍另一篇研究的结论，这里不再赘述。

至于为什么R1-Zero可以有这样的效果，我觉得还是因为模型本身就有这样的能力，RL做的只是释放或引导出这种能力。后面我们会介绍通过少量SFT数据也可以做到。

R1-Zero表现出来的问题主要是两个：可读性差和语言混合现象。但我在复现时感觉第一个问题还好，第二个问题确实存在，也比较明显。不过话说回来，只要结果正确，过程人类可不可读，好像问题也不太大吧（doge）。

最后再补充一句，R1-Zero用纯规则强化学习能做出这样的效果，真的很厉害！

R1：LLM再次进化

接下来是R1，它是想改进R1-Zero自然延伸而来。R1-Zero后马上紧跟两个问题：

通过加入少量高质量数据作为冷启动，是否可以进一步提高推理性能或加速收敛？
如何训练一个用户友好的模型，该模型不仅产生清晰连贯的思维链（CoT），而且还表现出强大的通用能力？

冷启动

R1第一步，冷启动。收集少量（Thousands）高质量CoT数据微调模型作为RL的起点（初始Actor）。

以长链推理（CoT）作为示例进行少量提示，直接提示模型生成带有反思和验证的详细答案。
以可读格式收集 R1-Zero 输出，并通过人工后处理来提炼结果。

冷启动数据相比R1-Zero的优势：

可读性：R1-Zero的内容经常不可读，冷启动的数据都是可读格式。
潜力：比R1-Zero表现更好。

推理导向的RL

接下来和R1-Zero一样（大规模RL），目的是提升模型推理能力，尤其是推理密集的任务。

训练过程中，依然观察到语言混合现象，尤其是Prompt包含多语种时。
为了减轻这个问题，引入「语言一致性」奖励，计算方式为推理链中目标语言词的比例。虽然导致性能略微下降，但结果可读。
最终奖励为：推理任务的准确性+语言一致性的奖励。

拒绝采样和SFT

上一步收敛后，主要用来收集SFT数据。就是说，前面做的工作都是为了搞数据。与主要关注推理的初始冷启动数据不同，此阶段整合了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务方面的能力。

即用生成数据在DeepSeek-V3-Base上进行SFT。这个做法就是一般意义上的SFT，只是这里数据不一样。

推理数据：600k。用上一阶段的模型生成推理链数据（每个Prompt输出多个Response，选择正确的）。扩充了数据，过滤掉了结果中混合语言、长释义和代码块的推理链。
非推理数据：200k。复用了DeepSeek-V3的一部分SFT数据，对于某些非推理任务，调用DeepSeek-V3生成一个潜在的推理思维链，然后再通过提示来回答问题。对非常简单的query（比如“你好”之类），回复不用CoT。

所有场景RL

对齐阶段，提升有用性和无害性，同时保持推理能力在线。这里对齐时采用了混合方法。

推理数据（数学、代码和逻辑推理）：遵循 DeepSeek-R1-Zero 中概述的方法（即规则）。
非推理数据：采用奖励模型来捕捉复杂和细微场景中的人类偏好。

对于有用性，专注最终总结，确保评估侧重于响应对用户的实用性和相关性，同时尽量减少对基础推理过程的干扰。

对于无害性，评估模型的整个响应，包括推理过程和总结。

经过以上4步，R1就出炉了。可以看到前两步主要是用来搞数据，具体来说就是带思考过程的数据。当然，后面两步也有改进，比如综合了两种数据训练和对齐。

这算不算是重新定义了“高质量数据”和“新的训练范式”呢？不管答案如何，我想，后面所有的LLM可能都会“R1”一下的。

蒸馏：小模型也有大能力

最后是蒸馏，也就是让小模型也拥有推理能力。具体做法是，直接用前面的800k数据微调Qwen和LLaMA，这种蒸馏方法叫黑盒蒸馏。

值得注意的是，这里没有继续RL（即使合并 RL 可以大大提高模型性能），他们将这个留给了社区。然后，就真的出现了（后面会介绍的DeepScaleR），算是补充了这里的后续。

R1相关研究探索

这一部分我们介绍与R1相关的一些比较有意思的研究。

oat-zero

首先来看oat-zero，相关内容如下。

There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study
sail-sg/oat-zero: A lightweight reproduction of DeepSeek-R1-Zero with indepth analysis of self-reflection behavior.

主要有下面几个结论。

在 R1-Zero 类训练中可能没有 Aha 时刻。相反，Aha 时刻（例如自我反思模式）出现在第 0 轮，即基础模型阶段。说明Aha不需要RL也可以有。
Base模型的回答中存在表面自我反思（SSR），在这种情况下，自我反思不一定导致正确的最终答案。比如四种行为中的后两种，如下所示。注意啊，这里并不是说Base模型不能自我反思，只是说存在表面自我反思。

行为1：自我反思重新检查并确认正确答案。
行为2：自我反思纠正最初的错误想法。
行为3：自我反思引入错误到原本正确的答案中。
行为4：重复的自我反思未能产生有效答案。

响应长度的增加现象并非自我反思的出现所导致，而是强化学习优化良好设计的基于规则的奖励函数的结果。
RL是将原本表面的自我反思转化为有效的自我反思，以最大化预期奖励，从而提高推理能力。
长度和自我反思可能不相关。

总的来说，可以概括成两句话：Base模型也可能Aha，但不否认RL不能Aha；RL能将Base的表面自我反思转化为有效自我反思，只是并不一定长度就一定增加。我觉得这个结论是Make sense的，Base模型只是具有能力但没有被激活，RL才激活了能力。

DeepScaleR

接下来是前面「蒸馏」部分提到的DeepScaleR，相关内容如下。

DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL
agentica-project/deepscaler: Democratizing Reinforcement Learning for LLMs

它的做法是直接从Deepseek-R1-Distilled-Qwen-1.5B强化微调（用高质量40K Math数据）。得到的模型在AIME2024和MATH500上超过了o1-preview。

这里的背景是：复现R1的计算量比较大，⩾32K context，~8000 steps，即使对1.5B模型也需要70,000小时A100。为了解决这个问题，本文使用一个蒸馏模型，并引入迭代式的长度增加方案。计算资源降到3800小时A100。

本文主要证明了通过 RL开发定制的推理模型既可扩展（Scaling）又具有成本效益。

它的数据处理流程如下：

使用gemini-1.5-pro-002从官方Solution中抽取答案。
使用sentence-transformers/all-MiniLM-L6-v2作为Embedding（使用语义相似度）移除重复/相似问题。
移除不能用sympy评估的问题（这类问题需要使用LLM评估，这不但会影响训练速度，还可能引入噪声奖励信号）。

ORM设计：

1：如果答案通过基础的LaTeX/Sympy检查。
0：答案或格式不对（比如没有<think>, </think>）。

交互式的上下文长度增加方案：从短到长。

长上下文为模型提供更多思考空间，但会降低训练速度；但短上下文可能会限制模型解决需要较长上下文的更难问题的能力。
所以分两步走：8k→16k和24k。第一步在8k上实现更有效的推理和高效的训练；接下来扩展上下文长度，以便模型可以解决更复杂的问题。

为什么要分两步走？因为在训练前评估模型时，发现错误响应的长度是正确响应的3倍。这表明较长的响应通常会导致不正确的结果，直接用长上下文窗口进行训练可能效率低下，因为大多数Token实际上都被浪费了。

我们看看实际的效果，如下所示。

先在8k上下文训练，平均训练奖励从 46% 增加到 58%，而平均响应长度从 5,500 下降到 3,500，AIME2024 Pass@1 Acc 33.9%。1000步后，响应长度再次开始增加，响应裁剪率从 4.2% 上升到 6.5%，表明更多的响应在上下文限制处被截断。说明此时模型试图通过“思考更久”（即生成更多Token）来提高训练奖励。
在第 1040 步（响应长度开始呈上升趋势）处使用 16K 上下文窗口重新启动训练。额外 500 步后，平均响应长度从 3500 增加到 5500，平均训练奖励稳定到62.5%，Acc达到38%，响应裁剪率到2%。性能开始趋于稳定。
在480步重新启动具有 24K 上下文窗口的训练运行。200步后Acc达到43%。

总的来说，结论就是：

RL 缩放也可以表现在小型模型中。单独的 SFT 和 RL 都不够；相反，通过将高质量的 SFT 蒸馏与RL缩放相结合，可以真正释放 LLM 的推理潜力。AIME 准确率从 28.9% 提高到 43.1%。
迭代扩展长度可实现更有效的长度缩放。简单来说，就是先训短的简单的，然后提升难度和长度限制，这样会比直接训练更加高效。

LIMO和s1

这两篇都是用少量高质量数据SFT激活模型推理能力的研究，相关内容如下。

LIMO: Less is More for Reasoning
GAIR-NLP/LIMO: LIMO: Less is More for Reasoning
s1: Simple test-time scaling
simplescaling/s1: s1: Simple test-time scaling

LIMO提出了如下假设：如果模型拥有丰富的推理知识并获得了足够的计算空间，那么激活推理能力可能只需要少量鼓励长时间思考的高质量训练样本。

然后它验证了假设，复杂的数学推理能力可以通过极少的高质量数据（817条，1/100的数据量）有效地引出（绝对性能提升40.5%）。而且普遍适用于分布外问题，表明模型获得了真正的推理能力，而不是简单的模式匹配。

这一发现不仅挑战了复杂推理任务需要海量数据要求的假设，还挑战了人们的普遍看法，即监督微调主要导致记忆而不是泛化。

s1类似，1000条高质量数据超过了59k的数据。

LIMO和s1的发现标志着知识基础的革命：从获取知识变为激活知识。这两个研究都提到了高质量数据，对LIMO来说，数据质量有两个因素决定：

问题的质量。包括问题解决方法的多样性、挑战模型能力的适当难度级别以及所涵盖知识领域的广度等因素。
答案（推理链、Response）的质量。包括教学价值、逻辑一致性和方法论严谨性等方面。

s1相对粒度粗一些，主要整体考虑质量（无格式问题）、难度和多样性。问题一般从已有数据集中筛选，答案可以使用官方解决方案，或用模型生成不同方案然后选择最好的。

在逻辑推理上的实验

这一轮的实验主要针对R1-Zero，除了验证上面的一些观点，还有一些自己的想法。初步结论一并汇总在这里。

R1-Zero的起点不重要

有了前面的铺垫，相信这个结论是比较清晰的，就是说无论Base还是Instruct，无论是正常模型还是Math模型，理论上应该都能实现R1-Zero的效果。既有效果，又有类似的表现，姑且可以算复现了R1-Zero。

如图所示，绿色的是Qwen2.5-7B-Instruct，棕色的是Qwen2.5-7B，两者在奖励、格式错误率、整体正确率、测试集表现几乎呈现完全一致的走向。不过Instruct版本整体表现稍微好一些。在回复长度方面，二者整体趋势一致，都是先降低后增长，但Base模型长度增加更明显，而Instruct模型下降更久一些。猜测是Instruct模型因为经过了SFT，有了固有的指令跟随能力，因此需要比较久学习到新的要求；同时Instruct的能力又强于Base，因此回复长度也相对更短一些。

另外值得注意的是，Base模型的起点几乎为0，但Instruct模型不是，它一开始就有一定的准确率，如第二行最右边图所示。

模型越新效果越好

虽然用的是在Qwen2.5发布之后的数据集，尽量保证了OOD，但我们确实无法知晓模型是否在预训练时加入过类似数据。原计划选择Qwen1做试验，不过代码改动稍微有点复杂，因此选择Qwen-1.5-7B进行对比。

如图所示，Qwen1.5-7B整体要明显逊色于Qwen2.5-7B，虽然它们整体的趋势也是一致的。我们从Qwen2.5的官方介绍也可以看到，其中加了Code和数学数据。

模型越大效果越好

这可能是句废话，但我们还想知道好多少，以及具体表现到底差在哪里。很遗憾，1.5B的Base模型并没有复现出来，虽然奖励、格式错误、整体准确率、测试集准确率都和前面表现一致，但回复长度是一路下降，直到收敛，没有观察到上升的情况。不过过程中依然还是表现出了Aha现象。最终还是选择了Math版本的1.5B模型，即Qwen2.5-Math-1.5B成功完成验证。

可以看到这个性能差别真是有点大，即便是Math模型，和7B之间的差距依然巨大。另外，尝试了3B模型，也能观察到效果，但回复长度上升幅度不大。

交互式长度增加有效

这里主要是验证多阶段（按难度等级）RL，类似DeepScaleR的做法。两步的趋势依然相近，但回复长度第二阶段明显更长，指标也有一定提升。

Reward非常关键

Reward是模型学习的方向，它的设计影响收敛速度和最终效果，应该针对不同任务进行相应设置。

以上结论更详细的说明之后将在技术报告中呈现。此外，由于我个人仅对强化这部分感兴趣，所以也就只做了这部分的一点验证，其他如LIMO、s1、R1、蒸馏等感兴趣的读者可以一试。

如果有读者和我一样，对强化学习、LLM和NLP结合感兴趣，可以关注我去年底创建的仓库：hscspring/rl-llm-nlp: Reinforcement Learning in LLM and NLP（https://github.com/hscspring/rl-llm-nlp），这里只收集强化学习和LLM、NLP相结合的内容。

R1：新范式、新纪元

如果你一路读到这里，相信对R1以及他所带来的影响有所感触。确实，创新比较多，几乎影响到LLM的每一个阶段。我们从预训练（Pretrain）、后训练（PostTrain）和推理（Inference）三个角度展开。

预训练

这块做的不多，只能简单聊聊自己的看法。DeepSeek-V3以相对比较低的成本震惊了一把业界，预训练看起来好像也并没有那么“高不可攀”。这当然和他们的技术创新有关，但还不可忽视的是行业整体的发展，尤其是高质量数据集的不断发布。后来者都是站在前人肩膀上的，从这个角度看，成本下降几乎是一件必然的事。成本下降是不是意味着会有更多的预训练模型呢？答案是一定的，但不一定是更多的LLM，而更可能是各类专用M，可以简称为LSM。直观上看就是Token不一样，比如AlphaFold。而且这一类的预训练模型可能并不用那么大。

R1的核心其实是“搞数据”，重新定义了“高质量数据”，这些数据是否可以用在预训练上？答案不言而喻。数据质量提高了，预训练上限能提升吗？可能需要实验验证一下。

那训练流程呢？原来是收集已有数据为主，之后是不是得考虑如何生成更好或者更合适的数据？这是不是会变成一个动态迭代过程？我觉得这可能成为一种新的训练范式，姑且把它放在预训练这里。

后训练

至于后训练显然内容更多。首先就是R1在Base基础上做的冷启动和RL，通过前面介绍，我们知道这两步的主要目的是激发出模型的推理能力，用来生成后面的SFT数据。冷启动其实就是用少量高质量数据SFT，它和基于规则的Pure RL结合，可以达到更好的效果。

类似的，用这些生成的数据重新SFT小模型（即论文中提到的蒸馏），其后也可以接RL（即R1-Zero），而且RL还可以分阶段来逐步进化到更大难度和更长回复（思考）。

除此之外，后面两步的SFT和对齐，虽然步骤和已有的后训练一样，但过程也大不一样。最大的区别是，R1在每个阶段都需同时考虑推理类数据和通用数据，这里有几个方面是比较值得进一步探索的。第一，推理数据和通用数据的比例是3:1，如果这个比例发生变化会怎么样？第二，对一些简单问题（比如打招呼），R1没有使用CoT（长链推理）回复，如何鉴定这里的“简单”？能否针对不同的上下文（用于区分用户的背景知识）给出不同的回复？第三，在对齐阶段R1同时使用了针对推理问题的纯规则Reward和针对人类偏好的RM，这是比较直观的方法。能否找到更好的RM？能否将其他一些规则也一并融入，然后训练出各种风格的LLM，就像人一样，成为他们天生的“性格”？我觉得这几个点都蛮有意思的。

上面提到这三点，算不算是新的训练范式？答案可能见仁见智，但我想R1的创新和贡献应该毋庸置疑吧，说他不亚于ChatGPT的发布也不算过分吧。

推理

R1的主要创新点其实体现在刚刚说的后训练阶段，推理中的某些特点是R1或o1这类模型的自然表现。关于o1，我在《关于AI前沿的思考》这篇文章中有提到：

我一直认为o1仅适用于有限的场景，因为它的目标是解决复杂的问题。事实上，Bob（OpenAI前首席研究官）也是这样认为的，他说除了程序员，大多数人日常工作中并不会遇到需要o1的需求。但我没有想到推理方向（可能也和自己没有真正用过o1有关）。Bob提到GPT-4o有几秒钟的思考时间，o1是30秒到几分钟，甚至延伸到几小时或几天。这种被他称作“扩展”的变化，其实是把“学习”后置，我们可以把这个过程看成是模型自己补充上下文的过程。这又和奥特曼在此前一次访谈（诞生于HuggingLLM的蝴蝶书《ChatGPT原理与应用开发》第一章最后也提到了这次访谈）中说提示词会消亡的看法一致。o1的价值就在其扩展性，它开始会更多地“思考”，而不是“记忆”。它和强化学习的结合应该会是一个不被很多人重视（或看到），但很有可能带来下一次革命的组合。

这篇文章是我在24年12月发布的，结果最后一句话的“预测”在当时其实已经被实现了（只是R1还没有发布）……不得不感慨，世间真奇妙。上面的引用里也提到了“扩展”，其实这就是所谓的推理时Scaling，即把更多的计算放在推理阶段。不熟悉的读者需要注意，这里说的推理（Inference）是模型训练完后“使用”它，而前面提到的推理（Reasoning）数据是类似数学、代码、逻辑这一类的推理数据。

关于推理时Scaling（ITS），比较早（不确认是不是最早）的典型代表研究应该是DeepMind的 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters，它主要回答这么一个问题：如果允许 LLM 使用固定但并非微不足道的推理时间计算量，那么它在具有挑战性的提示下性能可以提高多少？这里有两个关键前提：比较大的推理时计算量和有挑战性的问题。文章主要探讨了一些当时的Scaling方法的效果，比如Best-of-N（就是字面意思，Batch采样N个输出，然后根据一个验证者或奖励模型（RM）选择得分最高的）、TTS（Test Time Search）方法Random Sampling、Tree Search（比如MCTS）。主要结论（蛮有意思）是：推理时计算和预训练计算并非可以一对一“互换”。

对于简单和中等难度的问题（在模型能力范围内），或在推理需求较小的情况下，测试时计算可以轻松弥补预训练的不足。
然而，对于具有挑战性的问题（超出模型能力范围），或在推理需求较高的情况下，预训练可能在提升性能方面更加有效。

这个结论说明：模型本身的能力至关重要。推理时只能弥补不足，但不能消除不足。此时的奖励模型（RM）还是模型而不是规则，主要包括目标奖励模型（ORM，针对结果进行奖励）和过程奖励模型为主（PRM，针对过程进行奖励）。关于PRM的应用，R1发布前不久有两篇不错的研究值得一读：即微软发布的rStar-Math和PRIME-RL发布的Prime。

ITS应用的典型成功代表是OpenAI的o1: Learning to reason with LLMs | OpenAI，如其所述：

类似于人类在回答困难问题之前可能会思考很长时间，o1 在尝试解决问题时使用思维链。通过强化学习，o1 学会磨练其思维链并改进它使用的策略。它学会识别和纠正错误。它学会了将棘手的步骤分解为更简单的步骤。它学会了在当前方法不起作用时尝试不同的方法。此过程显著提高了模型的推理能力。

我们现在看到的R1就和这个描述非常相似，很多开源复现（包括我自己的实验）也确实观察到了这种现象。o1的重要表现是“思考很长时间”，即生成的长度比较长。根据实际使用情况，它的“很长时间”有时候是真的“很长”，这也算一种Scaling方法，前面提到的s1论文中的Budget Forcing算是一类Scaling，即Sequential Scaling。和前面提到的Best-of-N、树搜索等Parallel Scaling对应。

我们不知道o1是怎么做的，社区都猜测是MCTS，至少用了MCTS，但具体不得而知。但是R1我们是知道的，也是第一个将纯规则的RL成功应用于LLM。更为重要的是，他思考的还很快（相较o1）。更更为重要的是，他还将任务从复杂任务延展到所有任务。这一点是最牛逼的地方。o1针对复杂任务，很慢，所以看起来使用场景比较狭窄；R1针对所有任务，很快，直接将LLM提升到了另一个维度。而且，R1开源了。

总的来说，R1给LLM在推理方面带来了极大的变革，这是他在后训练上创新体现出来的结果，这种边推理边思考边优化的方式使得LLM离“人”更近了一步。R1之前，LLM有人的能力，但用的时候还是个模型；R1之后，LLM不但有人的能力，用起来也更像人。

其他影响

最后简单谈谈对从业者和行业的影响。我在《ChatGPT原理与应用开发》、《ChatGPT 开发指南：Hugging LLM Hugging Future | Yam》、《ChatGPT 影响冲击：职业、行业与产业 | Yam》等等文章以及很多分享中多次提到过相关内容。对于整个开发范式，确实影响不大，甚至会进一步深化，毕竟LLM能力进一步得到了提升。对于NLP算法这个职位也依然是类似观点，但稍微有点不一样了，主要是R1这波给的太多了，给算法指明了新的路径。其实现在的所谓LLM工程师基本来自两波：一大波之前的NLP算法工程师，LLM新技术出现后跟进的；一大波转行或新加入的。不过真正搞算法底层研发的职位注定会越来越少，大部分人还是得老老实实搞应用，包括我本人。但是搞应用的门槛慢慢降下来了，没办法，太火了，人太多了，相关的研究、工具如雨后春笋，虽然质量参差不齐，但行业整体确实欣欣向荣，大浪淘沙，自然而然会有优质内容慢慢浮现。对算法工程师，尤其是LLM相关的算法工程师来说，只懂算法怕是难以应付以后得局面；退一步说，算法工程师你不也得先是个工程师么。LLM以前，只懂一点算法，能跑个模型还可以吃到红利，LLM之后这样的红利怕是会逐步消失殆尽。既是坏事，也是好事，看你怎么理解了。

总结

本文比较详细地介绍了DeepSeek R1及其相关的技术，我们深刻感受到了RL的力量和魅力，更深刻感受到了R1的创新和强大。也难怪ai.com会把链接指向DeepSeek，人家不光有详细的技术报告，还把模型都开源出去了。真的很了不起。

说起来，本文还有个背景，最近偶尔在网上看到有一些行外人士说R1是蒸馏的ChatGPT，还煞有介事的做了LLM的科普视频。看完之后发现视频做的不错，但其中很多观点其实是错误的。令人意外的是，评论区大部分人都是无脑追捧，居然说是全网最好的科普。当然也不乏部分行业人士评论作者的偏颇之处，不过压根没人理会。无论是尬吹还是尬黑，我个人都比较反感。所以本文既是一篇R1相关的技术总结文章，也姑且可以算是一篇（稍有难度的）科普文章。我相信即便有读者无法读懂全部内容，但至少一部分内容还是可以看明白的，我想这就够了。当然，个人能力所限，文章也可能有不准确、不完善的地方，也欢迎读者指正。

最后，我写的很爽，希望你也能读的爽。我们就用分享时最后的个人观点来结束本文：R1发迹于OpenAI-o1，但超越了o1。他提升了LLM的整体能力，让模型真正在推理时进行自我反思和验证，这当然适用于复杂问题，但很多日常普通场景也能受益，AI更加像人。这是R1对整个行业的贡献，其作用不亚于ChatGPT的发布。

附录

附录1

笔者曾提到强化学习的相关文章，有些内容可能很幼稚甚至不对，还望读者海涵。

2024关于AI前沿的思考 | Yam
2024LLM Tiny Pretrain：H2O-Danube and Stable LM | Yam
2023关于大语言模型的思考 | Yam
2023ChatGPT 基础科普：知其一点所以然 | Yam 或《ChatGPT原理与应用开发》第一章
2020NLP 表征的历史与未来 | Yam
2020RoBERTa 论文+代码笔记 | Yam
2020Bart 论文+代码笔记 | Yam
2018西蒙《人工科学》读书笔记 | Yam
2018NLP 与 AI | Yam

博客仓库：https://yam.gift/，以上文章均可在里面找到。

....

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla