近年来,多模态大语言模型(Multimodal Large Language Models,MLLM)在视觉问答、文档理解、图表推理等任务中展现了卓越性能,但其背后的关键驱动力——大规模、高质量的多模态指令数据——往往成本高昂、获取困难。

针对这一瓶颈,上海交通大学、字节跳动与爱丁堡大学等团队于2025年3月在arXiv发布了论文《Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis》,提出“Oasis”框架:不再依赖复杂 prompt 或人工标注,仅以“钩子”式输入(hooking prompt)将图像馈入强大的预训练 MLLM,即可自动生成多模态指令-响应对,并辅以多阶段质量控制,实现了数据合成的高质量与高多样性。

实验表明,Oasis 合成的 500k+ 指令数据在14项主流视觉-语言基准上显著提升模型表现;在专用领域(如 OCR)中,同样带来持续增益。

另外,我整理了ICCV 2025 计算机视觉相关论文合集+源码,感兴趣的 d d 我~

论文 这里哦【CV实验室】

author

 

论文基本信息

  • 论文题目:Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis

  • 作者:Letian Zhang¹*, Quan Cui², Bingchen Zhao³, Cheng Yang²

  • 机构:¹同济大学;²字节跳动;³爱丁堡大学

  • 发布日期:2025年3月26日

  • 论文地址:https://arxiv.org/abs/2503.08741

  • 代码与数据集:https://github.com/Letian2003/MM_INF

摘要

现有多模态大模型的指令微调依赖于人力标注或复杂 prompting 合成的大量数据,难以同时兼顾多样性与质量。本文提出 Oasis:

  1. 钩子式图像输入:在输入预查询与后查询模板之间,仅保留图像信息,去除所有文本指令,引导 MLLM 直接生成指令;

  2. 多阶段数据分类:利用 LLM 对生成内容进行指令/描述分类,仅保留指令类型;

  3. 四维质量控制:基于可解性(Solvability)、清晰度(Clarity)、无幻觉(Hallucination-free)、语义合理性(Nonsense-free)四项标准,通过 MLLM/LLM 打分筛除低质量样本;

    最终合成 500k 条高质量多模态指令-响应对(Oasis-500k),并在 14 个不同视觉-语言基准上进行微调验证;实验结果显示,相较于无合成数据的基线,平均性能提升 1.8%–3.2%,在专用领域合成 70k OCR 数据也获得 1–3个百分点的稳定增益。Oasis 方法简洁高效,仅需图像即可生成海量高质多模态数据,为 MLLM 指令微调提供了一种低成本可扩展的解决方案。

研究背景与相关工作

研究背景与动机

  • 数据稀缺与成本:主流 MLLM(如 LLaVA、GPT-4V 等)性能的关键在于大规模多模态指令数据,然而公开训练集往往私有或规模不足,且手工标注成本高、效率低。

  • 已有合成方法不足:多数当前方法依赖于 GPT-4V 等先进 LLM 进行图像-文本配对再生成指令,或人工设计复杂 prompts,难以兼顾多样性与质量,且引入人工偏差。

  • Oasis 新颖之处:受 Magpie 框架启发,将“去除”文本 prompt 作为钩子,仅以图像激发 MLLM 内部知识生成指令,结合自动化分类与质量控制,实现合成流程的简化与高效。

相关工作梳理

  1. 基于固定 Prompt 的数据合成:如 LLaVA-Instruct、ALLAVA 等,通过 caption-then-QA 或 caption+LLM 问答生成指令,但依赖显式文本提示,限制多样性。

  2. 演化式指令生成(Evol-Instruct、MMEvol):通过多轮 prompt 迭代丰富指令难度,提升多样性,但流程复杂且仍需人工设计策略。

  3. 提示式持续学习:DualPrompt、L2P 等用于分类任务,通过学习提示向量进行更新,不适用于检测或生成任务。

  4. 空提示数据合成:Magpie 在纯文本 LLM 场景中证明仅 pre-query 模板即可生成高质量指令,Oasis 则将该思路拓展到多模态,加入图像输入,填补领域空白。

主要贡献

  1. 提出钩子式多模态指令合成框架:首次在测试时仅以图像激发 MLLM 自动生成指令,去除所有文本 prompt;

  2. 多阶段自动化质量控制:设计数据分类与四维打分机制,有效剔除低质量样本;

  3. 大规模合成数据构建:发布 Oasis-500k,覆盖 46 种语言、图表、OCR、代码等多域、多样化指令;

  4. 广泛实验验证:在 14 项跨领域基准及 OCR 专用实验中展现平均 1.8%–3.2% 性能提升,证明方法的通用性与高效性。

方法详解

钩子式指令合成流程

<|im start|>User
<image>
<|im end|>
<|im start|>Assistant

去除传统 MLLM 输入中的预查询模板之外的指令与后查询模板,让模型仅以视觉信息自回归生成指令文本。该“空提示”策略最大限度释放 MLLM 内部知识,多样性显著高于固定 prompt;

Comparison of previous methods and our proposed
Oasis framework for multi-modal data synthesis.

Comparison of previous methods and our proposed Oasis framework for multi-modal data synthesis.

数据分类与筛选

  1. LLM 分类器:针对第一步生成的大量文本,使用 Qwen2.5-72B-Instruct 对“是否包含指令”进行二分类,仅提取指令形式的文本;

  2. 规则过滤:剔除明显非中文字符、格式混乱、重复度过高的噪声条目;

Detailed Oasis pipeline.

Detailed Oasis pipeline.

四维质量控制

对剩余指令进行以下维度打分,分数范围 [1,5],仅保留符合如下标准的样本:

  • 可解性:指令所需信息是否可从图像中完整获取;

  • 清晰度:指令语义是否明确、无歧义;

  • 无幻觉:指令内容与图像内容完全对齐,不引入不存在或误导性信息;

  • 语义合理性:句法正确、连贯,无无意义或胡乱成分;

仅当“无幻觉”和“语义合理性”均为最高分、且“可解性+清晰度 ≥ 7”时保留。此机制使高质量指令通过率约 50.9%;

Language type breakdown

Language type breakdown

数据集构建与属性分析

Oasis-500k 数据集

  • 图像来源:Cambrian‑10M 数据库中随机抽取 10M 张图像,涵盖日常场景、文档、图表、街景、科技插图等多域;

  • 合成规模:生成原始回复 1M 条,分类筛选后 500k 条高质量多模态指令-响应对;

数据属性分析

  1. 长度统计:指令平均长度76.8 字,响应375.8 字,远超 LLaVA‑NeXT 的 45.2/185.3,体现更丰富信息;

  2. 语言多样性:包含 46 种语言,英语占比 ~78.5%,汉语 ~18.7%,少数民族语言与小语种均有分布;

  3. 动词-名词组合:常见根动词数量与分布更均匀,非仅“回答问题”一类,展示了自然与多样的交互形式;

Root verbs and top noun objects.

Root verbs and top noun objects.

实验设置与结果分析

通用基准验证

  • 基准任务:涵盖 OCR、图表、文档理解、通用问答、视觉推理等 14 项,详见表 2;

  • 模型框架:以 LLaVA-NeXT 为基础,Visual Encoder 选用 CLIP‑ViT‑L,LLM 分别试验 Vicuna‑7B、Qwen2.5-7B、Llama3-8B;

  • 训练策略:2 阶段微调——视觉对齐预训练与指令微调,学习率 1e-3/1e-5,Batch size 128;

主结果

与无合成数据基线相比,Oasis-500k 平均提升:

  • Vicuna‑7B:+3.1%

  • Qwen2.5‑7B:+1.8%

  • Llama3‑8B:+3.2%

Oasis synthetic data instances

Oasis synthetic data instances

专用领域:OCR 数据合成

  • OCR-70k:从 24 个 OCR 数据集抽取 311k 图像,合成、筛选后保留 70k 条;

  • 评估指标:TextVQA、OCRBench、DocVQA、InfoVQA、AI2D、SeedBench2-Plus;

  • 结果:引入 OCR-70k 后,各项指标平均提升 1.5–2.0 个百分点,表 4 中详细展示;

Figure(a) visualizes the improvements of Oasis over baseline, and significant overall enhancement can be observed. Figure(b)
presents two OCR samples generated by Oasis, revealing the data diversity. Figure(c) showcases the mechanism of instruction quality
control. We accept the high-quality query above and reject the unsolvable and unclear query in the second case.

Figure(a) visualizes the improvements of Oasis over baseline, and significant overall enhancement can be observed. Figure(b) presents two OCR samples generated by Oasis, revealing the data diversity. Figure(c) showcases the mechanism of instruction quality control. We accept the high-quality query above and reject the unsolvable and unclear query in the second case.

消融研究

  1. 去掉分类阶段:直接使用原始 1M 条数据微调,性能下降 ~2.3%,表明分类必要性;

  2. 去掉质量控制:使用分类后未打分数据(200k 条)训练,平均降低 1.0%,验证四维 QC 的有效性;

  3. 响应质量控制:尝试 NLL 拒采样与多维打分,对性能无增益乃至略降,故可省略;

总结与展望

总结

本文提出的 Oasis 方法,仅凭一张图像即可自动合成大规模、高质量多模态指令-响应数据,并通过分类与四维质量控制确保效果。Oasis-500k 在通用与专用任务上均带来显著性能提升,为 MLLM 指令微调提供了低成本、可扩展的新范式。

展望

未来可从以下方面拓展:

  1. 更轻量级模型适配:将 Oasis 与边缘端显存受限的 VLM/LLM 结合;

  2. 在线增量数据合成:结合流式图像输入,实现实时多模态数据扩充;

  3. 领域自适应:针对医学、遥感等专业领域,设计更精细化质量控制策略。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐