美团提出HiMix!多模态大模型计算成本减少10倍!
受益于大型语言模型和模态对齐技术的最新进展,现有的大型视觉语言模型(LVLMs)在广泛的场景中取得了显著的性能。然而,过高的计算复杂性限制了这些模型在实际应用中的广泛使用。我们认为,计算复杂性的一个主要瓶颈是由模型计算中冗余视觉序列的参与引起的。这源于对LVLMs语言解码器中视觉和语言信息传输效率的重新评估。然后,我们提出了一种新颖的分层视觉语言交互机制,称为混合注意力分层视觉注入(HiMix)。
今日论文推荐

论文名:HiMix: Reducing Computational Complexity in Large Vision-Language Models
论文链接:https://arxiv.org/pdf/2501.10318
开源代码:https://xuange923.github.io/HiMix/

导读
理解复杂内容是迈向人工通用智能(AGI)的关键一步。作为信息处理的两个核心模态,视觉和语言各自具有独特的优势:文本可以提供详细的语义信息,而图像可以呈现直观的视觉线索。如何有效整合这两种模态的信息已成为当前研究的重要方向。我们已经见证了基于多模态信息整合的复杂和更高层次语义理解的巨大研究和努力。大多数模型通过将视觉和语言特征连接起来输入到大型语言模型(LLM)中。然而,视觉序列通常比语言序列长,显著增加了计算复杂性。这促使我们思考:简单的连接是否真的是促进视觉和语言交互的最有效方法?
简介
受益于大型语言模型和模态对齐技术的最新进展,现有的大型视觉语言模型(LVLMs)在广泛的场景中取得了显著的性能。然而,过高的计算复杂性限制了这些模型在实际应用中的广泛使用。我们认为,计算复杂性的一个主要瓶颈是由模型计算中冗余视觉序列的参与引起的。这源于对LVLMs语言解码器中视觉和语言信息传输效率的重新评估。然后,我们提出了一种新颖的分层视觉语言交互机制,称为混合注意力分层视觉注入(HiMix)。在HiMix中,只有语言序列进行完整的正向传播,而视觉序列在语言解码器层的特定阶段与语言进行交互。令人惊讶的是,我们的方法在最小性能损失的情况下显著降低了计算复杂性。具体而言,HiMix在多个LVLM模型中实现了语言解码器计算成本的减少,同时保持了可比的性能。这凸显了我们方法的优势,我们希望我们的研究为视觉语言理解领域带来新的视角。
3. 方法
本文提出了一种通过修改多模态信息之间的交互来实现视觉语言理解的新方法。在初步部分,我们简要介绍了常用的 LVLM 方法,称为 Vanilla-LVLM,然后详细描述了我们提出的 HiMix 结构。
3.1. 初步
对于输入图像 ,我们使用预训练的视觉编码器提取视觉特征序列 。在 Vanilla-LVLM 中,这些视觉特征通过连接器进行转换,以与语言特征对齐,生成序列 ,其中 是视觉序列的长度, 是特征维度。对于输入文本 ,使用与大型语言模型绑定的文本编码器提取特征:,其中 表示语言特征序列, 是语言序列的长度。
在 Vanilla-LVLM 中,视觉和语言序列的拼接被输入到大型语言模型中:
每个 Transformer 层由两个子层组成:自注意力层和前馈网络(FFN)。注意力层包括三个线性变换矩阵,、 和 ,它们将输入 转换为 矩阵。随后,自注意力机制使序列内部能够进行交互:
在注意力过程中使用因果掩码,以防止未来令牌的信息泄露。在自注意力之后,FFN 通常由两个线性变换层和一个非线性激活函数组成。自注意力层的输出 作为输入被送入 FFN:
其中 和 是线性变换的权重矩阵。Vanilla-LVLM 的整体架构如图 3 左侧所示。
对于长度为 的输入序列,Vanilla 模型的计算复杂度包括两部分:自注意力由于 操作需要 ,而前馈网络由于两个线性层贡献了
。因此,总复杂度为:
由于视觉序列长度 通常比语言序列长度 长,减少计算中的视觉标记数量可以有效降低整体计算成本。
3.2. HiMix
我们引入了用于混合注意力的分层视觉注入(HiMix),旨在降低计算复杂度的同时保持 LVLM 的性能。关键在于视觉序列不需要参与整个前向传播过程。在本节中,我们描述了分层视觉注入的设计和混合注意力的实现。图 3 的中间部分展示了 HiMix 的整体结构,而右侧展示了混合注意力的详细实现。

图 3. 传统模型与 HiMix 架构的比较。左:传统 Vanilla 的整体结构。中:HiMix 的整体结构。右:HiMix 的详细实现。
3.2.1. 分层视觉注入

图 4. 模型架构设计的探索。(a) 每层均匀视觉注入。(b) 通过多级连接器的分层视觉注入。混合注意力(MA)与主要方法的不同之处在于视觉和语言序列共享 KV 投影层。
我们假设视觉序列仅在必要时注入,而不需要在层之间传递。
一种直接的方法是将 直接输入到每一层,如图4(a)所示,这表示均匀的视觉注入。然而,这可能会限制模型有效捕捉多样化视觉信息的能力。
为了为模型提供更多样化的视觉线索,一种改进的策略是增加连接器的数量以匹配大型语言模型的层数,如图4(b)所示。视觉序列 首先通过相应的连接器进行转换,然后输入到每一层,实现分层的视觉注入。
然而,这些结构存在一个共同的问题:在后续的注意力计算中,视觉和语言序列共享相同的KV投影层。这可能不是最优的解决方案。由于语言序列在每一层都经过注意力并通过前馈网络(FFN),与视觉序列共享相同的KV投影可能会在两种模态之间引入干扰。
在我们的最终模型中,我们通过将每个连接器与投影层合并来解决这个问题,从而形成专用的视觉投影层。这些层不仅对齐了模态之间的维度,还以最直接的方式实现了视觉特征的分层注入。最后,我们将视觉序列 发送到每一层,并将视觉投影层集成到注意力机制中,确保视觉和语言序列之间没有干扰。
3.2.2. 混合注意力
在混合注意力中,视觉序列 和语言序列 被视为两个独立的输入。
最初,输入通过五个线性变换矩阵进行处理。视觉特征通过 和 变换生成矩阵 和 。语言特征通过 变换生成矩阵 和 。
然后,我们将视觉和语言信息连接起来形成完整的 序列:
随后,混合注意力促进了多模态信息的交互:
生成的序列保持与初始语言特征序列相同的长度,并且视觉序列不需要前向传播。
在注意力计算过程中,位置嵌入被添加到 和 。请注意,由于视觉特征已经包含来自特征提取的位置信息,因此我们不会向视觉序列添加额外的位置嵌入。
我们对注意力权重应用了部分因果掩码:所有语言标记都可以关注之前的视觉标记,而对语言交互应用因果掩码以防止未来信息泄露。
对于长度为 的输入序列,HiMix 的计算复杂度包括两部分:混合注意力由于 操作需要 ,而仅应用于语言序列的前馈网络贡献了 。因此,总复杂度为:
与 Vanilla-LVLM 的复杂度相比,HiMix 显著降低了计算成本。通过避免与两个序列的自注意力相关的二次项,HiMix 提供了一个更高效的解决方案,特别适用于处理较长的视觉序列。

HiMix 的完整算法流程在算法 1 中展示。
实验与结果
4.1. 实验设置
模型选择。我们选择 TinyLlama [37]、Qwen2 [32] 和 Llama3.2 [14] 作为语言解码器,并使用预训练的 Siglip [36] 视觉编码器 SoViT-400m/14 作为视觉编码器。在 vanilla-LVLM 设置中,一个 2 层 MLP 作为视觉编码器和语言解码器之间的连接器,类似于 TinyLLaVA [38] 中的配置。在初始化期间,加载相应的预训练权重,并随机初始化视觉投影层的参数。
评估指标。为了评估我们提出的 HiMix 方法,我们评估了模型效率和性能指标。实验旨在验证 HiMix 是否能够在保持竞争力的同时显著降低计算复杂度。
对于模型效率,我们报告了模型参数的数量和计算成本(以 GFLOPs 为单位)。每个输入样本包含一个由 Siglip 编码器处理的 728 个视觉标记的图像和一个长度为 64 的文本提示序列。此设置模拟了现实应用中典型的多模态输入场景。
对于模型性能,我们在七个常用基准上评估模型:VQAv2 [17]、GQA [18]、TextVQA [27]、MM-Vet [33]、POPE [22]、MME [15] 和 MMMU [34]。这些基准全面衡量了模型的能力,从基本的视觉感知到高级推理。
训练策略。我们采用两种不同的训练策略,分别称为“常规范式”和“增强范式”:
-
常规范式。该策略使用 LLaVA-1.5 [25] 数据集进行训练。模型首先使用 LLaVA-1.5-558k 进行预训练,其中视觉编码器和语言解码器的参数保持冻结,仅训练视觉投影层。在监督微调(SFT)阶段,模型使用 LLaVA-1.5-mix-665k 进行微调,保持视觉编码器冻结但更新语言解码器的所有参数。
-
增强范式。该策略利用 LLaVA-1.5 [25] 和 ShareGPT4V [8] 数据集进一步提升性能,遵循 TinyLLaVA [38] 启发的三阶段训练方法。初始预训练阶段与常规范式中的设置相同。接下来,模型使用 ShareGPT4V-pretrain-1246k 数据集进行额外的预训练,然后在 SFT 阶段使用 ShareGPT4V-mix-665k 数据集进行微调。额外的预训练和 SFT 阶段使用与常规范式中 SFT 阶段相同的配置。
在主要实验中,两种训练策略都被应用,而消融研究则使用常规范式。
4.2. 消融研究
自注意力与混合注意力。我们首先研究了当语言解码器中的自注意力被混合注意力取代时对模型效率的影响,整体结构如图 4(a) 所示。Siglip 被用作视觉编码器,Llama3-1B 被用作语言解码器。如表 1 所示,在不增加参数数量的情况下,混合注意力显著减少了计算开销。HiMix 的整体计算成本(GFLOPs)仅为原始模型的 ,而语言解码器的计算成本降低到原始的大约 10%。这些结果表明,混合注意力能够实现高效的多模态信息交互,大大降低了计算成本。

表1. 自注意力与混合注意力模型之间的效率比较。S 代表 Siglip。L 代表 Llama3-1B。
均匀注入与分层注入。接下来,我们通过比较均匀视觉注入与分层注入,研究不同视觉注入策略对模型性能的影响。如表2所示,在所有层中均匀注入视觉信息(如图4(a)所示)会导致模型性能下降,而分层注入(如图4(b)所示)则提高了整体性能。尽管分层注入的计算成本略高于均匀注入,但与原始方法相比,它仍然减少了近的总体计算成本。鉴于分层注入提供了更多样化的视觉信息,它使模型能够更好地处理更复杂的任务。这表明分层结构是一种更有效的方法,在性能和计算效率之间取得了更好的平衡。

表2. 均匀与分层视觉注入的性能比较。
4.3. 综合评估
我们在多个流行的语言解码器上应用 HiMix 以评估其通用性,所有实验中使用 Siglip 作为视觉编码器。
常规范式结果。如表 3 所示,结果表明 HiMix 在大多数基准测试中保持了与基线模型相当的性能,同时显著降低了计算成本。这表明我们的方法在效率和效果之间取得了成功的平衡。我们注意到在 TextVQA 和 MME 任务上模型性能有所下降,主要是由于 OCR 能力的下降。

增强范式结果。为了获得更好的性能,我们使用增强范式策略评估了 HiMix。表 4 显示,增加额外的训练数据可以提高性能。图 5 展示了在两种训练策略下 HiMix 与基线模型之间的性能差距,表明增强范式放大了 HiMix 的优势,通常在这种设置下优于基线模型。


效率分析。我们对 HiMix 的计算效率与基线 LVLM 模型进行了全面分析。评估包括语言解码器的计算成本(GFLOPs)以及不同视觉到语言输入长度比例下的最大 VRAM 使用量。如表 5 所示,使用 HiMix 的模型在计算成本和内存使用方面表现出显著降低。具体来说,V:L 为 728:32 和 728:64 的场景与典型的多模态输入配置非常相似。当语言序列比视觉序列短得多时,HiMix 实现了计算成本的显著降低。即使语言序列的长度增加,HiMix 仍然表现出较低的计算成本和 VRAM 消耗。当输入视觉和语言序列长度相等时,HiMix 仅消耗基线模型一半的计算成本。这表明 HiMix 非常适合一般应用和更复杂的语言处理任务,相比传统方法具有显著的效率优势。

总结
传统的LVLMs信息交互存在高计算成本的问题,这是由于大型语言模型模块计算中的视觉序列引起的。为了解决这个问题,本文引入了一种新的视觉-语言交互机制,提出了一个混合注意力模块,该模块重新构建了大型语言模型输入序列的组成和交互,显著降低了LVLMs的整体计算负载。此外,我们开发了一种分层注入混合注意力架构,通过在大型语言模型的特定阶段整合多样化的视觉信息来提升模型性能。多个LVLMs的广泛实验结果验证了我们方法的有效性。我们的方法不仅大幅降低了计算复杂度,还保持了与原始LVLMs相当的性能,显示出满足更广泛应用需求的强大潜力。
那么,如何系统的去学习大模型LLM?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
所有资料 ⚡️ ,朋友们如果有需要全套 《AI大模型入门+进阶学习资源包**》,扫码获取~
篇幅有限,部分资料如下:
👉LLM大模型学习指南+路线汇总👈
💥大模型入门要点,扫盲必看!
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
路线图很大就不一一展示了 (文末领取)
👉大模型入门实战训练👈
💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉国内企业大模型落地应用案例👈
💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
👉GitHub海量高星开源项目👈
💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
👉LLM大模型学习视频👈
💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
👉640份大模型行业报告(持续更新)👈
💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
👉获取方式:
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)