论文略读：REMEDY: RECIPE MERGING DYNAMICS IN LARGE VISION-LANGUAGE MODELS

本文提出REMEDY框架解决大型视觉语言模型(LVLM)的模型合并难题。针对LVLM规模庞大和视觉语言任务异质性两大挑战，REMEDY首先识别可复用模块(如投影器和LLM浅层)构建"recipes"，实验证明其能有效增强视觉感知和图文交互能力；然后设计模态感知分配器，通过少量示例动态判断输入与recipes的相关性，实现一次性权重分配的跨任务知识整合。该框架突破了传统视觉模型合

UQI-LIUWJ

512人浏览 · 2025-07-23 15:31:14

UQI-LIUWJ · 2025-07-23 15:31:14 发布

ICLR 2025

模型合并能够将多个任务特定模型整合成一个统一模型，实现跨任务能力迁移
- 任务算术（task arithmetic）通过加权任务向量实现知识迁移
- 后续的 TIES-Merging 和 AdaMerging 又进一步利用模型剪枝与合并系数自适应机制，提升了视觉模型中的多样性与适应性。
但在 LVLM 上的模型合并仍未被充分探索，其面临两大挑战：
- 模型规模巨大
  - LVLM 通常包含三个模块：视觉编码器（visual encoder）、投影器（projector）、大型语言模型（LLM）。
  - 例如 LLaVA 1.5 包含 3 亿视觉编码器参数和 70 亿或 130 亿 LLM 参数。
  - 在任务特定数据有限（如 ScienceQA 仅有 1696 对图像-问题样本）的情况下，全面微调这些模块代价极高。
  - 因此，寻找高效子模块以进行知识迁移成为关键。
- 视觉语言任务具有异质性
  - LVLM 的输入同时包含视觉与语言数据，任务差异可能来自图像模态、语言模态，或两者兼具。
  - 如图 1 所示，同一张地球图片在不同任务中可能需要生成不同输出（如识别城市名 vs. 生成图像描述）
  - 在零样本泛化任务中，LVLM 被期望处理新的视觉-语言组合，其挑战远超传统单模态任务的零样本学习。
——>为了解决上述挑战，本文提出了REcipe MErging DYnamics（REMEDY），一个针对 LVLM 的模型合并新范式，解决传统视觉模型合并方法的局限性。
- REMEDY 包括两个核心步骤：
  - Recipe 构建（Recipe Construction）
    - 将模型中的可复用模块（如 projector 与 LLM 的浅层）定义为 recipes
    - 通过在多个 LVLM 上的大量实验，我们发现这些模块：
      - 显著提升了视觉感知能力；
      - 改进了图文交互理解；
      - 并非只是“模仿输出风格”，而是真正增强了任务迁移能力
  - Recipe 合并（Recipe Merging）
    - 在构建完 recipe 后，提出一种模态感知的分配器（modality-aware allocator）；
      - 该分配器利用**少量示例（few-shot learning）**判断输入图文与现有 recipe 的相关性；
      - 然后执行一次性权重分配（one-shot weight allocation）；
      - 该动态融合机制可适应多模态输入，实现跨任务、跨模态知识的有效整合。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla