【论文阅读】Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

下一尺度预测——视觉自回归方法VAR论文讲解

xianshuiyihui

939人浏览 · 2025-07-05 12:17:19

xianshuiyihui · 2025-07-05 12:17:19 发布

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

原文摘要
- 核心创新点
  - 范式转变：
    - VAR将图像的自回归学习从传统的"下一token预测"重新定义为"从粗到细的下一尺度/分辨率预测"。
    - 这种直观的方法通过分层生成图像（如先低分辨率后逐步细化），显著提升了自回归模型的效率和生成质量。
  - 超越现有技术：
    - VAR首次使GPT风格的自回归模型在图像生成任务上超越Diffusion Transformer，在速度、质量和可扩展性方面均表现出优势。
  - 关键实验结果
    - ImageNet 256×256基准测试：
      - Fréchet Inception Distance FID：从基线AR模型的18.65显著提升至1.73（数值越低越好）。
      - Inception Score IS：从80.4跃升至350.2（数值越高越好）。
      - 推理速度：比传统AR模型快20倍。
    - 与DiT的对比：
      - VAR在以下维度全面优于扩散变换器（DiT）：
        
        图像质量（FID/IS）
        
        推理速度（20倍加速）
        
        数据效率（更少数据达到更好性能）
        
        可扩展性（模型规模扩大时性能持续提升）。
  - 类LLM的特性验证
    - 缩放定律（Scaling Laws）：
      - VAR模型在扩大规模时表现出与LLMs相似的幂律缩放规律，线性相关系数接近-0.998，证明其性能随参数增加可预测地提升。
    - 零样本泛化能力：
      - VAR在以下下游任务中无需微调即可表现优异：图像修复、外绘、编辑。
    - 这表明VAR初步具备了类似LLMs的两大关键特性：缩放定律和零样本泛化。

1. Introduction

自回归语言模型的启发
- 背景：
  - GPT系列及同类自回归LLMs的崛起标志着AI领域的新纪元。
  - 尽管存在幻觉等问题，这些模型展现出的通用性和适应性被视为迈向AGI的重要一步。
  - 核心机制：其成功源于简单的自监督策略——“下一token预测”。
  - 关键特性：
    - 可扩展性（Scaling Laws）：通过缩放定律，可从小模型预测大模型性能，指导资源分配。
    - 泛化能力：零样本/少样本学习证明其能适应未见任务，体现了从无标注数据中学习的潜力。
  - 意义：这些特性使AR模型成为AGI研究的核心范式。
视觉领域自回归模型的困境
- 现状：视觉领域尝试构建类似的自回归或世界模型（如VQGAN、DALL-E），但存在两大问题：
  - 性能差距：当前视觉AR模型显著落后于扩散模型。
  - 未充分探索的缩放定律：缺乏类似LLMs的缩放规律研究。
- 根本原因：传统方法将图像通过Tokenizer离散化为1D token序列，直接套用语言模型的"下一token预测"范式，忽略了图像的空间层次性。
VAR的核心创新
- 人类视觉启发：人类观察/创作图像遵循从全局结构到局部细节的层次化过程（多尺度、由粗到细）。
- 方法论突破：
  - 提出"下一尺度预测"（next-scale prediction）替代传统"下一token预测"。
  - 具体流程：
    1. 将图像编码为多尺度token图（multi-scale token maps）。
    2. 自回归过程从1×1分辨率开始，逐步预测更高分辨率token图（每步基于之前所有尺度的信息）。
- 优势：更贴合图像本质，解锁AR模型在视觉领域的潜力。
VAR的突破性成果
- 性能指标（ImageNet 256×256）：FID 1.73、IS 350.2，推理速度比AR基线快20倍。
- 对比DiT：在以下维度全面超越DiT（如Stable Diffusion 3.0和SORA）：
  - 图像质量（FID/IS）、数据效率、推理速度、可扩展性
- 类LLM特性验证：
  1. Scaling Laws：展现与LLMs相似的幂律缩放规律（线性相关系数接近-0.998）。
  2. 零样本泛化：支持图像修复、外绘、编辑等任务。
- 意义：首次实现GPT风格AR模型在图像生成上超越扩散模型。
本文的核心贡献总结
- 新框架：提出多尺度自回归范式（next-scale prediction），为视觉AR算法设计提供新视角。
- 特性验证：实证VAR具有LLMs的两大关键特性——缩放定律与零样本泛化。
- 性能突破：首次使AR模型在图像合成中超越扩散模型。
- 开源推动：发布完整代码库（含VQ Tokenizer和AR训练流程），促进视觉AR学习发展。

2. Related Work

2.1 大型自回归语言模型的特性

2.1.1 缩放定律

定义：自回归语言模型中发现的幂律关系，描述模型规模（参数、数据量、计算量等）与测试集交叉熵损失之间的关联。
作用：
- 通过小模型性能预测大模型表现，优化资源分配。
- 证明LLMs性能可随规模增长持续提升（无饱和现象），这是GPT系列成功的关键。

2.1.2 零样本泛化

定义：模型（尤其是LLMs）在未经专门训练的任务上表现的能力。
视觉领域的进展：
- 基础模型：CLIP 、SAM、Dinov2展现零样本与上下文学习能力。
- 扩展工作：Painter、LVM通过视觉提示器（visual prompters）实现视觉上下文学习。

2.2 视觉生成模型

2.2.1 逐行扫描自回归模型

核心思想：将2D图像编码为1D token序列，按行扫描顺序生成（类似语言模型）。
演进脉络：
- 早期工作：直接生成RGB像素；通过多网络叠加实现超分。
- 潜在空间改进：VQGAN在VQVAE潜在空间进行AR学习，使用GPT-2风格Transformer。
- 多尺度扩展：VQVAE-2、RQ-Transformer保留行扫描但引入多尺度或堆叠编码。
- 大规模模型：Parti基于ViT-VQGAN架构，将参数量扩展至20B，擅长文本到图像生成。

2.2.2 掩码预测模型

代表工作：
- MaskGIT：结合VQ自编码器与类BERT的掩码预测Transformer，通过贪心算法生成token。
- 视频扩展：MagViT适配视频生成；MagViT-2改进VQVAE支持图像/视频。
- 规模突破：MUSE将MaskGIT扩展至3B参数。

2.2.3 扩散模型

技术方向：
- 学习/采样优化：改进训练或采样效率。
- 引导技术：提升生成可控性。
- 潜在学习：在潜在空间进行扩散。
- 架构革新：DiT 和U-ViT 用Transformer替代U-Net，成为Stable Diffusion 3.0、SORA [14]、Vidu等前沿系统的基础。

3. Methods

3.1 Preliminary：NTP的AR

3.1.1 自回归模型的形式化定义

序列建模：给定离散token序列 $(x_1, x_2, \dots, x_T)$ （ $xt∈[V]x_t \in [V]$ ，词汇表大小为 $V$ ），自回归模型假设当前token $x_t$ 的概率仅依赖于其前缀 $(x1,…,xt−1)(x_1, \dots, x_{t-1})$ 。
似然分解：序列的联合概率可分解为条件概率的连乘：
$p(x_1, \dots, x_T) = \prod_{t=1}^T p(x_t \mid x_1, \dots, x_{t-1}).$
- 通过优化条件概率 $pθ(xt∣x1,…,xt−1)p_\theta(x_t \mid x_1, \dots, x_{t-1})$ 训练模型，生成新序列。

3.1.2 图像Token化流程

挑战：图像是2D连续信号，需离散化为token并定义1D顺序。
量化自编码器 VQVAE：
1. 编码：图像 $im\text{im}$ 通过编码器 $E(⋅)\mathcal{E}(\cdot)$ 得到特征图 $\in \mathbb{R}^{h \times w \times C}$ 。
2. 量化：通过量化器 $Q(⋅)\mathcal{Q}(\cdot)$ 将 $f$ 映射为离散token网格 $\in [V]^{h \times w}$ ，每个token $q^{(i,j)}$ 对应码本 $\in \mathbb{R}^{V \times C}$ 中最近的码向量（欧式距离最近）：
  $q^{(i,j)} = \left(\arg\min_{v \in [V]} \|\text{lookup}(Z, v) - f^{(i,j)}\|_2\right) \in [V]$
  - 对特征图中的每一个像素，它的特征长度为 $C$
  - 它和码本 $Z$ 中的每一个代码向量（向量长度为 $C$ ）计算欧式距离
  - 欧式距离最短的，就是当前特征像素的代码向量
  - 这个代码向量对应的token，就是当前像素的token
  - 也就是说最后 $q$ 的每一个元素是一个token，而不是向量
3. 重建：通过解码器 $D(⋅)\mathcal{D}(\cdot)$ 从量化特征 $f^=lookup(Z,q)\hat{f} = \text{lookup}(Z, q)$ 重建图像 $im^=D(f^)\hat{\text{im}}=\mathcal{D}(\hat{f})$ ，优化复合损失：
  $L=∥im−im^∥2+∥f−f^∥2+λPLP(im^)+λGLG(im^), \mathcal{L} = \|\text{im} - \hat{\text{im}}\|_2 + \|f - \hat{f}\|_2 + \lambda_P \mathcal{L}_P(\hat{\text{im}}) + \lambda_G \mathcal{L}_G(\hat{\text{im}}),$
  - 其中 $\mathcal{L}_P $为感知损失和 $LG\mathcal{L}_G$ 为对抗损失，分别控制感知质量和对抗性。
  - lookup操作就是把每个token变换回原来的代码向量

3.1.3 图像Token的序列化问题

顺序定义：图像token网格 $q$ 需展平为1D序列 $x$ （如行优先扫描、螺旋顺序等）。
传统方法缺陷：
1. 数学前提违背：
  - 矛盾点：图像特征 $f^{(i,j)}$ 本质是双向相关的，但自回归模型强制单向依赖（ $x_t$ 仅依赖前缀），导致建模偏差。
2. 零样本泛化受限：
  - 例子：无法根据图像下半部分预测上半部分（需双向推理）。
3. 结构退化：
  - 空间局部性破坏：展平后，相邻token $q^{(i,j)}$ 与 $q(i±1,j±1)q^{(i\pm1,j\pm1)}$ 的2D空间关系被1D序列稀释，削弱模型对局部结构的捕捉能力。
4. 效率低下：
  - 计算复杂度：生成 $\times n$ 图像需 $O(n^2)$ 自回归步，传统Transformer自注意力成本达 $O(n^6)$ 。

3.2 Next-scale prediction的视觉自回归

3.2.1 核心重构：Next token to Next scale

自回归单元变革：
- 传统方法：以单个token为单元（如VQGAN的1D序列）。
- VAR创新：以整个token图（token map）为单元，按分辨率从低到高生成多尺度序列 $(r1,r2,…,rK)(r_1, r_2, \dots, r_K)$ ，其中 $r_K$ 匹配原图分辨率 $\times w$ 。
似然分解：
$p(r_1, r_2, \dots, r_K) = \prod_{k=1}^K p(r_k \mid r_1, \dots, r_{k-1})$
- 每个 $rk∈[V]hk×wkr_k \in [V]^{h_k \times w_k}$ 是第 $k$ 尺度的token图，生成时并行预测所有 $hk×wkh_k \times w_k$ 个token
  - 条件依赖于前缀 $r≤k−1r_{\leq k-1}$ 和位置嵌入
  - 作为条件的token map同样还是展成一维序列放入transformer中
图示：上图右侧展示VAR的多尺度生成流程。
训练与推理优化
- 训练：使用块状因果注意力掩码，确保 $r_k$ 仅关注前缀 $r≤kr_{\leq k}$ 。
- 推理：无需掩码，通过KV缓存加速自回归生成。

3.2.2 解决传统AR模型的四大问题

问题	VAR的解决方案	效果
数学前提违背	约束 $r_k$ 仅依赖前缀 $r≤k−1r_{\leq k-1}$ ，符合人类视觉的由粗到细特性。	建模逻辑自洽，避免双向依赖冲突。
零样本泛化受限	多尺度结构支持局部条件生成（如给定低分辨率生成高分辨率）。	实现图像补全、编辑等任务。
结构退化	取消1D展平操作，保留token图的2D结构；多尺度设计增强空间相关性。	生成图像细节更自然。
效率低下	并行生成每尺度token图，计算复杂度从 $O(n^6)$ 降至 $O(n^4)$	支持高分辨率生成（如256×256），推理速度提升20倍。

3.2.3 多尺度Token化

量化自编码器改进：
1. 架构基础：沿用VQGAN 但改进量化层，支持多尺度输出 $(r_1, \dots, r_K)$ 。
2. 残差设计（Algorithm 1 & 2）：
  - 编码时，第 $k$ 尺度 $r_k$ 仅依赖前缀 $r1,…,rk−1r_1, \dots, r_{k-1}$ 。
  - 解码时，使用 $K$ 个额外卷积层 ${ϕk}k=1K\{\phi_k\}_{k=1}^K$ 补偿上采样信息损失。
3. 共享码本：所有尺度共用码本 $\in \mathbb{R}^{V \times C}$ ，确保token语义一致性。

4. 实现细节

4.1 VAR Tokenizer实现细节

基础模型：基于标准VQVAE架构，增加多尺度量化层（仅引入0.03M额外参数）。
码本共享：所有尺度共用码本，大小 $V = 4096$ 。
训练数据：在OpenImages上训练，空间下采样率16×。
损失函数：沿用之前的复合损失（MSE + 感知损失LPIPS + 对抗损失StyleGAN）。

4.2 VAR Transformer实现细节

架构选择
- 基础设计：采用GPT-2风格的解码器Transformer，未引入LLM高级技术。
关键组件：
- 自适应归一化（AdaLN）：将类别嵌入作为起始token [s] 和AdaLN条件，稳定训练。
- 注意力优化：对Query和Key向量进行单位归一化，提升训练稳定性。
模型缩放规则
- 参数配置：模型宽度 $w$ 、头数 $h$ 、丢弃率 $d r$ 随深度 $d$ 线性缩放： $\quad h = d, \quad dr = 0.1 \cdot d/24.$
- 参数量计算： $N(d) = 18dw^2 = 73728d^3$
  - 其中自注意力层占 $4w^2$ ，前馈网络占 $8w^2$ ，AdaLN占 $6w^2$ 。
训练配置
- 优化器：AdamW（$\beta_1=0.9 , \beta_2=0.95 $, 权重衰减=0.05）。
学习率：基础学习率 $10^{-4}$ （batch size=256时），实际batch size为768~1024。
训练周期：200~350轮（依模型规模调整）。

5. Empirical Results

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla