论文略读:REMEDY: RECIPE MERGING DYNAMICS IN LARGE VISION-LANGUAGE MODELS
本文提出REMEDY框架解决大型视觉语言模型(LVLM)的模型合并难题。针对LVLM规模庞大和视觉语言任务异质性两大挑战,REMEDY首先识别可复用模块(如投影器和LLM浅层)构建"recipes",实验证明其能有效增强视觉感知和图文交互能力;然后设计模态感知分配器,通过少量示例动态判断输入与recipes的相关性,实现一次性权重分配的跨任务知识整合。该框架突破了传统视觉模型合
ICLR 2025
- 模型合并能够将多个任务特定模型整合成一个统一模型,实现跨任务能力迁移
- 任务算术(task arithmetic)通过加权任务向量实现知识迁移
- 后续的 TIES-Merging 和 AdaMerging 又进一步利用模型剪枝与合并系数自适应机制,提升了视觉模型中的多样性与适应性。
-
但在 LVLM 上的模型合并仍未被充分探索,其面临两大挑战:
-
模型规模巨大
-
LVLM 通常包含三个模块:视觉编码器(visual encoder)、投影器(projector)、大型语言模型(LLM)。
-
例如 LLaVA 1.5 包含 3 亿视觉编码器参数和 70 亿或 130 亿 LLM 参数。
-
在任务特定数据有限(如 ScienceQA 仅有 1696 对图像-问题样本)的情况下,全面微调这些模块代价极高。
-
因此,寻找高效子模块以进行知识迁移成为关键。
-
-
视觉语言任务具有异质性
-
LVLM 的输入同时包含视觉与语言数据,任务差异可能来自图像模态、语言模态,或两者兼具。
-

-
如图 1 所示,同一张地球图片在不同任务中可能需要生成不同输出(如识别城市名 vs. 生成图像描述)
-
在零样本泛化任务中,LVLM 被期望处理新的视觉-语言组合,其挑战远超传统单模态任务的零样本学习。
-
-
-
——>为了解决上述挑战,本文提出了REcipe MErging DYnamics(REMEDY),一个针对 LVLM 的模型合并新范式,解决传统视觉模型合并方法的局限性。
-
REMEDY 包括两个核心步骤:
-
Recipe 构建(Recipe Construction)
-
将模型中的可复用模块(如 projector 与 LLM 的浅层)定义为 recipes
-
通过在多个 LVLM 上的大量实验,我们发现这些模块:
-
显著提升了视觉感知能力;
-
改进了图文交互理解;
-
并非只是“模仿输出风格”,而是真正增强了任务迁移能力
-
-
-
Recipe 合并(Recipe Merging)
-
在构建完 recipe 后,提出一种模态感知的分配器(modality-aware allocator);
-
该分配器利用**少量示例(few-shot learning)**判断输入图文与现有 recipe 的相关性;
-
然后执行一次性权重分配(one-shot weight allocation);
-
该动态融合机制可适应多模态输入,实现跨任务、跨模态知识的有效整合。
-
-
-
-


火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)