多模态大模型:视觉掩码自编码器-MAE
《Masked Autoencoders Are Scalable Vision Learners》是何恺明团队于 2021 年提出的一项突破性工作,首次将掩码自编码器(MAE)引入计算机视觉领域,为视觉自监督学习开辟了新范式。
*一,MAE*
《Masked Autoencoders Are Scalable Vision Learners》是何恺明团队于 2021 年提出的一项突破性工作,首次将掩码自编码器(MAE)引入计算机视觉领域,为视觉自监督学习开辟了新范式。
核心思想:从 NLP 到 CV 的范式迁移
论文受 NLP 领域 BERT 启发,提出视觉掩码自编码器(MAE),其核心逻辑可概括为 “随机遮挡 - 语义推理 - 像素重建” 的三阶段框架:
-
高比例随机遮挡
将图像划分为 16×16 的 Patch,随机遮挡 75% 的区域(远超 BERT 的 15%),强制模型通过局部可见信息推断全局语义。
-
非对称编解码架构
-
-
编码器
仅处理未被遮挡的 25% Patch,采用 ViT 结构提取高层语义特征。
-
解码器
接收完整的位置编码(包括可见 Patch 和可学习的 Mask Token),通过轻量级 Transformer 重建原始像素。
-
-
像素级重建损失
仅在被遮挡区域计算 MSE 损失,聚焦语义信息的恢复而非局部细节。
这种设计巧妙地将 NLP 的 “完形填空” 任务转化为视觉领域的 “图像拼图” 问题,解决了视觉数据空间冗余度高、信息密度低的核心挑战。
技术创新:三大突破点
1. 掩码策略的革命性突破
-
75% 高遮挡率
通过极端遮挡消除空间冗余,迫使模型学习跨区域语义关联。实验表明,当遮挡率从 10% 提升至 75% 时,ImageNet 分类准确率提升超过 10%。
-
均匀随机采样
避免中心偏置,确保模型无法通过边缘信息外推(如遮挡物体中心时,模型需结合上下文推断整体形状)。
2. 非对称架构的效率优化
-
编码器轻量化
仅处理 25% Patch,计算量减少至传统 ViT 的 1/4,训练速度提升 3 倍。
-
解码器简化
深度仅为编码器的 1/3(如 ViT-Huge 的编码器 24 层→解码器 8 层),参数量减少 90%,但仍能恢复语义结构。
3. 语义特征的跨模态对齐
-
重建任务的双重目标
解码器不仅恢复像素,更隐式对齐语义空间。例如,在 ImageNet 分类任务中,MAE 预训练的 ViT-Huge 在仅用 1K 数据时达到 87.8% 准确率,超越所有基于 21K 数据的监督训练模型。
二,论文翻译:
摘要
本文表明,掩码自编码器(MAE)是适用于计算机视觉的可扩展自监督学习方法。我们提出的MAE方法非常简单:通过随机掩码输入图像的局部块,并重构缺失的像素信息。该方法基于两个核心设计:首先,我们开发了一种非对称编解码架构,其中编码器仅处理可见的图像块子集(不包含掩码标记),而轻量级解码器则从潜在表示和掩码标记中重构原始图像。其次,我们发现对输入图像进行高比例(例如75%)的掩码操作,可以构建一个具有挑战性且有意义的自监督学习任务。这两种设计的结合使我们能够高效地训练大型模型:训练速度提升了3倍以上,同时准确率也得到了提高。我们的可扩展方法支持学习具有高泛化能力的大容量模型:例如,基础版ViT-Huge模型在仅使用ImageNet-1K数据的方法中达到了最佳准确率(87.8%)。在下游任务中的迁移性能超过了监督预训练方法,并展现出良好的模型容量扩展性。
1,引言
略…
我们提出了一种简单、高效且可扩展的掩码自编码器(MAE)用于视觉表示学习。我们的MAE通过随机掩码输入图像的局部块,并在像素空间中重构缺失块。该模型采用非对称编解码架构:编码器仅处理可见图像块子集(不包含掩码标记),而轻量级解码器则结合潜在表示和掩码标记重构输入图像(图1)。通过将掩码标记的处理转移至小型解码器,我们的非对称架构显著降低了计算量。

图1. 我们的MAE架构。在预训练阶段,输入图像的随机子集(例如75%)被掩码。编码器仅处理可见图像块的小部分。掩码标记在编码器处理后引入,由轻量级解码器对完整的编码块和掩码标记集合进行处理,以像素级重构原始图像。预训练完成后,解码器被丢弃,编码器直接应用于未被掩码的完整图像块(全量图像块)以完成识别任务。
在这种设计下,极高的掩码比例(如75%)可实现双赢局面:既优化了准确率,又使编码器只需处理少量(如25%)图像块。这可将预训练总时间缩短3倍以上,并同步降低内存消耗,从而能够轻松将MAE扩展至大型模型。
我们的MAE能够学习泛化能力极强的高容量模型。通过MAE预训练,我们可以在ImageNet-1K上训练像ViT-Large/-Huge[16]这样的数据密集型模型,并提升其泛化性能。基础版ViT-Huge模型在ImageNet-1K上微调后达到87.8%的准确率,超越了所有仅使用ImageNet-1K数据的先前方法。我们还在目标检测、实例分割和语义分割等任务上评估了迁移学习性能。在这些任务中,我们的预训练方法不仅优于监督预训练方案,更重要的是,模型容量的扩展带来了显著性能提升。这些现象与NLP领域自监督预训练[14,47,48,4]的发展轨迹高度一致,我们期待这将推动计算机视觉领域探索类似的发展路径。

图2. ImageNet验证图像的示例结果。每个三元组展示:掩码图像(左)、我们的MAE重建结果†(中)和真实图像(右)。掩码比例为80%,仅保留196个图像块中的39个。更多示例见附录。 †由于可见图像块不参与损失计算,模型在可见区域的输出质量会明显下降。理论上可通过将输出与可见区域叠加来提升视觉效果,但我们有意未进行此操作,以便更全面地展示方法特性。

图3. 使用在ImageNet上训练的MAE模型(与图2共享相同模型权重)在COCO验证图像上的示例结果。观察最右侧两个示例的重建结果,尽管与真实图像存在差异,但在语义层面仍具有合理性。

图4. 使用掩码比例75%预训练的MAE模型在更高掩码比例输入下的ImageNet验证图像重建结果。预测结果与原始图像存在合理差异,表明该方法具备跨掩码比例的泛化能力。
2. 相关工作
掩码语言建模及其自回归对应方法(如BERT[14]和GPT[47,48,4])是NLP领域极具影响力的预训练方法。这类方法通过遮盖输入序列的部分内容并训练模型预测缺失信息,已被证明具有优异的可扩展性。大量研究表明,这些预训练模型在多种下游任务中均表现出良好的泛化能力。
自编码是一种经典的表示学习方法,由将输入映射到潜在空间的编码器和重构输入的解码器组成(例如PCA和k-means[29])。去噪自编码器(DAE)[58]通过对输入信号施加噪声并学习恢复原始信号。在不同噪声形式下,一系列方法可视为广义DAE的变体,例如像素掩码[59,46,6]或颜色通道移除[70]。本文提出的MAE属于去噪自编码框架,但在多个方面与传统DAE存在显著差异。
掩码图像编码方法通过掩码操作学习图像表示。早期工作[59]将掩码作为DAE的一种噪声类型。Context Encoder[46]利用卷积网络修复大面积缺失区域。受NLP成功启发,近期相关方法[6,16,2]基于Transformer[57]架构展开研究。iGPT[6]处理像素序列并预测未知像素;ViT论文[16]探索了掩码图像块预测的自监督学习;最新工作BEiT[2]提出预测离散视觉标记[44,50]。
自监督学习在计算机视觉领域持续受到关注,研究者提出了多种预训练任务[15,61,42,70,45,17]。近年来对比学习[3,22]发展迅速,例如[62,43,23,7]通过建模图像间相似性(或仅正样本相似性[21,8])进行训练。这类方法高度依赖数据增强[7,21,8]。与之形成鲜明对比的是,自编码方法在概念上开辟了不同路径,并展现出独特的行为特征(详见后文分析)。
3. 方法
我们提出的掩码自编码器(MAE)是一种简单的自编码方法,能够从部分观测中重建原始信号。与所有自编码器类似,我们的方法包含一个将观测信号映射到潜在表示的编码器,以及一个从潜在表示中重构原始信号的解码器。与传统自编码器不同的是,我们采用非对称设计:编码器仅处理部分可见信号(不包含掩码标记),而轻量级解码器则结合潜在表示和掩码标记重构完整信号。图1展示了这一设计思路,具体细节如下:
掩码策略 遵循ViT[16]的分块方法,我们将图像划分为规则的不重叠图像块。随后随机采样一个子集的图像块,掩码(即移除)剩余块。我们的采样策略非常简单:按照均匀分布无放回地随机采样图像块,简称为"随机采样"。
高掩码比例(即移除块的比例)的随机采样策略可有效消除图像冗余,从而构建出无法仅通过可见相邻块推断解决的挑战性任务(详见图2-4)。均匀分布避免了潜在的中心偏差(即图像中心区域被掩码块过多)。最终,这种高度稀疏的输入为设计高效编码器创造了条件,具体如下:
MAE编码器 我们的编码器基于ViT[16]架构,但仅处理可见的未掩码图像块。与标准ViT类似,编码器通过线性投影和位置嵌入将图像块转换为嵌入向量,然后通过一系列Transformer块进行处理。关键区别在于:我们的编码器仅处理完整图像块集合中的一小部分(例如25%),掩码块被直接移除,且不使用任何掩码标记。这种设计使得我们能够以极低的计算和内存成本训练超大型编码器。完整图像块集合的处理由轻量级解码器完成,具体如下:
MAE解码器 MAE解码器的输入是由以下两部分组成的完整标记集合:(i) 已编码的可见图像块;(ii) 掩码标记(图1)。每个掩码标记[14]是一个共享的可学习向量,用于指示待预测缺失块的位置。我们在完整标记集合中添加位置嵌入——若省略此步骤,掩码标记将无法获取其在图像中的位置信息。解码器包含另一组Transformer块。 MAE解码器仅在预训练阶段用于执行图像重建任务(仅编码器用于生成识别任务的图像表示)。因此,解码器架构可独立于编码器灵活设计。我们实验了远小于编码器的窄而浅的解码器。例如,默认解码器每个标记的计算量仅为编码器的10%以下。通过这种非对称设计,完整标记集合仅由轻量级解码器处理,显著缩短了预训练时间。
重构目标 我们的MAE通过预测每个掩码块的像素值来重构输入。解码器输出的每个元素是代表一个图像块的像素值向量。解码器的最后一层是线性投影层,其输出通道数等于单个图像块的像素值数量。解码器输出被重塑为重建图像。损失函数采用像素空间中重建图像与原始图像的均方误差(MSE),且仅在掩码块上计算损失,类似于BERT[14]。¹ 我们还研究了以归一化像素值为重构目标的变体。具体而言,计算每个图像块的像素均值和标准差并进行归一化。实验表明,使用归一化像素作为重构目标可提升表示质量。
简单实现 我们的MAE预训练可高效实现,且无需任何专门的稀疏操作。首先通过线性投影和位置嵌入生成所有输入块的标记,随后根据掩码比例随机打乱标记列表并移除末尾部分。此过程生成编码器处理的小部分标记,等效于无放回采样图像块。编码完成后,将掩码标记列表附加到已编码块列表,并反转随机打乱操作以对齐所有标记与目标位置。解码器处理该完整标记列表(已添加位置嵌入)。值得注意的是,无需稀疏操作。由于打乱和逆打乱操作速度极快,此简单实现引入的开销可忽略不计。
4. ImageNet实验
我们在ImageNet-1K(IN1K)[13]训练集上进行自监督预训练,随后通过(i)端到端微调或(ii)线性探测的监督训练方式评估特征表示。
骨干网络:ViT-Large。我们在消融实验中使用ViT-Large(ViT-L/16)[16]作为骨干网络。ViT-L模型规模庞大(比ResNet-50大一个数量级)且易过拟合。
以下是从头训练的ViT-L与基于我们MAE微调的ViT-L对比结果:
| scratch, original | scratch, our impl. | baseline MAE |
|---|---|---|
| 76.5 | 82.5 | 84.9 |
值得注意的是,从头开始监督训练ViT-L并非易事,需要借助强正则化的优化方案。即便如此,我们的MAE预训练仍带来显著提升。此处微调仅进行50个epoch(从头训练需200个epoch),表明微调精度高度依赖预训练效果。
4.1 主要特性
我们使用表 1 中的默认设置(见标题)对 MAE 进行消融实验,观察到几个有趣的特性。

表1. 在ImageNet-1K上使用ViT-L/16进行的MAE消融实验。我们报告微调(ft)和线性探测(lin)的准确率(%)。除非另有说明,默认设置为:解码器深度8、宽度512,重建目标为未归一化像素,数据增强为随机大小裁剪,掩码比例75%,预训练时长800个epoch。默认设置以灰色标记。
掩码比例:图 5 展示了掩码比例的影响。最优比例高得惊人:75% 的比例对线性探测和微调均表现良好。这一现象与 BERT [14] 形成对比(BERT 典型掩码比例为 15%),也远高于计算机视觉相关工作 [6,16,2] 中使用的比例(20%-50%)。 模型通过推断缺失补丁生成不同但合理的输出(图 4),能够理解物体和场景的格式塔结构 —— 这无法通过简单延伸线条或纹理来补全。我们假设这种类似推理的行为与有用表征的学习相关。

图5. 掩码比例。高掩码比例(75%)对微调(上)和线性探测(下)均效果良好。本文所有图中y轴均为ImageNet-1K验证集准确率(%)。
图 5 还显示,线性探测和微调结果呈现不同趋势:对于线性探测,准确率随掩码比例上升稳步增加直至达到最佳点,精度差距可达~20%(54.6% vs. 73.5%);对于微调,结果对比例敏感性较低,广泛的掩码比例范围(40%-80%)均表现良好。图 5 中所有微调结果均优于从头训练(82.5%)。
解码器设计
我们的MAE解码器可灵活设计,相关研究见表1a和1b。
表1a 改变解码器深度(Transformer块数量)。足够深的解码器对线性探测至关重要,这可通过像素重建任务与识别任务的差异解释:自动编码器的最后几层更专注于重建,而与识别任务相关性较低。适度深度的解码器能兼顾重建的专业性,使潜在表征保持在更抽象的层次。此设计可在线性探测中带来最高8%的提升(表1a,“lin”列)。然而,若使用微调,编码器的最后几层可通过调整适应识别任务,此时解码器深度对微调效果的影响减弱(表1a,“ft”列)。
有趣的是,仅含单个Transformer块的MAE解码器在微调时表现强劲(84.8%)。需注意,单个Transformer块是将可见标记信息传播到掩码标记的最小要求,这种小型解码器可进一步加速训练。
表1b 研究解码器宽度(通道数)。我们默认使用512维宽度,其在微调和线性探测下均表现良好。更窄的解码器在微调时也能有效工作。 总体而言,我们的默认MAE解码器是轻量的:它包含8个块、宽度512维(表1中灰色标记)。每个标记的计算量(FLOPs)仅为ViT-L(24个块、1024维)的9%。因此,尽管解码器处理所有标记,其计算量仍仅占总计算量的一小部分。
掩码标记
MAE的一项重要设计是在编码器中跳过掩码标记[M],并在轻量解码器中后续使用该标记。表1c对这一设计进行了研究。
若编码器使用掩码标记,性能会下降:线性探测准确率降低14%。此时,预训练与部署之间存在差异——编码器在预训练输入中包含大量掩码标记,而在未损坏的图像中并无此类标记。这种差异可能导致部署时的准确率下降。通过从编码器中移除掩码标记,我们强制编码器始终处理真实图像块,从而提升准确率。
此外,跳过编码器中的掩码标记可大幅减少训练计算量。在表1c中,整体训练FLOPs降低3.3倍,实际运行速度在我们的实现中提升2.8倍(见表2)。对于更小的解码器(1个块)、更大的编码器(ViT-H)或两者兼具的情况,实际运行速度提升甚至更大(3.5–4.1倍)。值得注意的是,当掩码比例为75%时,速度提升可超过4倍,部分原因在于自注意力的计算复杂度为二次方级别。此外,内存占用显著减少,这使得训练更大规模的模型或通过大批量训练进一步加速成为可能。这种时间和内存效率让MAE在训练超大型模型时具备显著优势。

表2. MAE训练的墙钟时间(800个epoch),在128个TPU-v3核心上使用TensorFlow进行基准测试。加速比相对于编码器包含掩码标记的条目(灰色标注)。解码器宽度为512,掩码比例75%。†:该条目通过训练10个epoch估算得出。
其他略
5. 迁移学习实验
我们使用表 3 中的预训练模型对下游任务的迁移学习效果进行评估。
目标检测与分割:我们在 COCO [37] 数据集上对 Mask R-CNN [24] 进行端到端微调。ViT 骨干网络适配了 FPN [36] 结构,该方法适用于表 4 中的所有条目。我们报告目标检测的边界框 AP(box AP)和实例分割的掩码 AP(mask AP)。
与监督预训练相比,我们的 MAE 在所有配置下表现更优(表 4)。使用较小的 ViT-B 时,MAE 预训练比监督预训练高出 2.4 个点(50.3 vs. 47.9,APbox);更重要的是,使用较大的 ViT-L 时,MAE 预训练比监督预训练高出 4.0 个点(53.3 vs. 49.3)。
基于像素的 MAE 优于或媲美基于标记的 BEiT,且 MAE 的方法更简单、更快。MAE 和 BEiT 均优于 MoCo v3,而 MoCo v3 与监督预训练表现相当。
**语义分割:**我们在 ADE20K [72] 数据集上使用 UperNet [63] 进行实验(详见 A.4)。表 5 显示,我们的预训练相比监督预训练显著提升了结果,例如 ViT-L 提升了 3.7 个点。基于像素的 MAE 同样优于基于标记的 BEiT,这与 COCO 数据集上的观察一致。

分类任务:表 6 研究了在 iNaturalists [56] 和 Places [71] 任务上的迁移学习(详见 A.5)。在 iNat 数据集上,我们的方法表现出强大的规模扩展能力:模型越大,准确率提升越显著,结果大幅超越此前的最佳记录。在 Places 数据集上,MAE 优于此前通过数十亿图像预训练获得的最佳结果 [19,40]。

像素 vs. 标记:表 7 比较了 MAE 以像素和标记作为重建目标的效果。尽管使用 dVAE 标记的表现略优于未归一化像素,但在所有测试案例中,其与归一化像素的表现在统计上相近。这再次表明,MAE 无需进行标记化处理。

6. 讨论与结论
高效可扩展的简单算法是深度学习的核心。在自然语言处理(NLP)中,简单的自监督学习方法(如 [47,14,48,4])通过模型的指数级规模扩展带来了显著优势。在计算机视觉领域,尽管自监督学习取得了进展,但实际应用的预训练范式仍以监督学习为主导(如 [33,51,25,16])。本研究在 ImageNet 和迁移学习中观察到,自动编码器 —— 一种类似于 NLP 技术的简单自监督方法 —— 能够提供可扩展的优势。视觉领域的自监督学习或许正踏上与 NLP 相似的发展轨迹。
另一方面,我们注意到图像与语言是性质不同的信号,需谨慎处理这种差异。图像仅是光信号的记录,不存在类似语言中 “词语” 的视觉语义分解单元。因此,我们不尝试移除完整物体,而是移除最可能不构成语义片段的随机图像块;同理,MAE 重建的是像素(非语义实体)。然而,我们观察到(如图 4 所示),MAE 能够推断出复杂的整体重建结果,表明其已学习到大量视觉概念(即语义)。我们假设这种能力源于 MAE 内部丰富的隐藏表征,希望这一视角能为未来研究带来启发。
更广泛的影响:本文提出的方法基于训练数据的统计规律预测内容,因此会反映数据中的偏差(包括具有负面社会影响的偏差),模型可能生成不存在的内容。在基于本工作开展图像生成相关研究时,这些问题需要进一步探讨和考量。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)