大模型论文:DeepSeek-VL: Towards Real-World Vision-Language Understanding

论文:https://arxiv.org/pdf/2403.05525

一、摘要

  • 我们提出了 DeepSeek-VL,一个开源的视觉-语言(Vision-Language, VL)模型,旨在支持真实世界中的视觉与语言理解应用。我们的研究方法围绕三个核心方向展开:

    首先,在 数据构建 方面,我们力求确保数据具备多样性、可扩展性,并能够充分覆盖真实场景,例如网页截图、PDF 文件、OCR 文本、图表以及知识型内容(包括专家知识与教材等),以实现对现实应用语境的全面表征。同时,我们基于真实用户使用场景建立了用例分类体系,并据此构建指令微调数据集。利用这一数据集进行的微调显著提升了模型在实际应用中的用户体验。

    其次,在 模型架构 方面,考虑到效率与实际应用的需求,DeepSeek-VL 采用了混合式视觉编码器(hybrid vision encoder),能够在固定的 token 限额下高效处理高分辨率图像(1024×1024),同时保持较低的计算开销。这样的设计确保模型能够在各类视觉任务中准确捕捉关键语义信息与细节特征。

    第三,在 训练策略 方面,我们认为一个高水平的视觉-语言模型应当首先具备强大的语言能力。为了在预训练过程中保持大语言模型(LLM)的语言能力,我们设计了一种高效的视觉-语言联合预训练策略:从训练初期便引入语言模型训练,并仔细平衡视觉与语言模态之间的竞争关系。训练初期以文本为主,随后逐步调整比例,使两种模态能够实现平衡融合。

    最终,DeepSeek-VL 模型家族(包括 1.3B 和 7B 两个版本)在真实世界的视觉-语言聊天任务中展现出卓越的用户体验,在同等模型规模下于多项视觉-语言基准测试中达到了业界领先或具有竞争力的性能,同时在语言类任务上依然保持稳健表现。我们已将 1.3B 与 7B 模型全面开源,以推动基于该基础模型的后续研究与创新。

  • DeepSeek-VL 的创新点在于“实用主义的多模态智能”。与以往偏重学术基准的模型不同,它强调:“数据要贴近现实”;“模型要能跑得动”;“语言能力不能丢”。因此,它更像是一个面向落地场景的全能型视觉语言大模型基础平台,既能处理图文理解、问答、OCR 场景,也能在语言生成任务中保持一致性。

二、介绍

  • 开源多模态大模型的发展浪潮正迅速兴起,旨在缩小与闭源模型之间的差距。尽管在基准测试上取得了显著进步,但大多数开源模型在实际应用性能与用户体验上仍明显落后于闭源的最先进模型。这表明,开源社区在构建具有稳健通用多模态能力的模型方面仍面临巨大挑战。这种性能差距在真实场景中尤为突出,主要有以下几个原因:

    • (1) 数据预训练不足:许多开源模型将大量算力用于指令微调(instruction tuning),但强大的语言模型经验表明,广泛的预训练对于形成通用智能至关重要。要让多模态模型具备丰富的世界知识,必须进行覆盖多样视觉语言数据的全面预训练
    • (2) 数据集缺乏真实性:开源模型常将多个学术数据集简单拼合用于训练,虽然能取得不错的基准成绩,但往往难以反映真实使用体验,缺乏现实语境的多样性与复杂性。
    • (3) 模型架构受限于低分辨率输入:现有模型多采用视觉 Transformer,与预训练语言模型对齐,但通常仅支持低分辨率输入(如 336×336 或 448×448)。这种设置无法满足 OCR 或细节识别等复杂任务的需求。
    • (4) 语言能力退化问题:一些模型(开始尝试多模态预训练,但往往忽视了语言能力的保持。长期的多模态训练容易导致语言退化。理想的模型应具备强大的视觉与语言能力,因此需要设计一种训练策略,使模型在发展新模态能力时依然保持语言核心能力。
  • 基于上述问题,本文提出 DeepSeek-VL ——一个基于 DeepSeek 语言模型系列构建的开源多模态模型。本文以实际应用为目标开发该模型,强调:

    • 大规模预训练(保证通用知识与语言智能),
    • 精心策划的数据体系(基于真实用例分类),
    • 高分辨率视觉架构设计
    • 以及平衡多模态能力的训练策略
  • 此外,本文还引入了一种新的 模型规模扩展方法论,使模型能从 1B 平滑扩展到 7B 参数规模。通过这些改进,DeepSeek-VL 在同等规模下在多项视觉-语言基准测试中表现出显著优势。

  • DeepSeek-VL 的预训练数据来自多种来源,包括(但不限于)Common Crawl、Web Code、电子书、教育资料与 arXiv 论文。该集合广泛覆盖真实世界场景,如网页截图、PDF、OCR、图表以及知识型内容(例如专家知识与教材),在保持可扩展性的同时,提供了广泛而实用的表示能力。

  • 在进行预训练的同时,本文精心策划了指令微调数据集,使其能够真实反映实际使用场景。为此,从互联网上手动收集 GPT-4V 与 Gemini 的真实测试样例,并组织成系统化的用例分类结构。利用这一分类体系,本文为每张测试图像选择相应提示,从而构建出实用且具有代表性的指令调优集。该分类体系同时被用于建立评估集,以有效评测模型的真实应用表现。

  • 视觉模块方面,本文设计了一种高分辨率感知与低计算成本并存的结构。DeepSeek-VL 采用 混合视觉编码器(hybrid vision encoder),通过将文本对齐编码器用于粗语义提取(384×384 分辨率),并结合高分辨率编码器提取细节信息(1024×1024 分辨率),实现高效融合。最终,该混合结构将 1024×1024 图像压缩为 576 个 token,在语义保真与计算经济性之间取得平衡,适用于图文交互与多轮视觉对话场景。

  • 在多模态模型预训练中,一个常见挑战是:若视觉数据比例过高,会导致语言能力退化。本文的研究发现,保持语言数据比例不低于 70% 对维护语言知识的完整性至关重要。基于此,本文提出 “模态热启动(modality warm-up)”策略 ——在训练早期以语言为主,随后逐步增加视觉数据占比,使两种模态能力平衡发展。

  • 本文在小规模(1B 参数)模型上进行了迭代实验,再扩展到 7B 版本。由于小模型难以充分展现多模态性能,采用两种措施:

    • 修改评估协议,使困惑度指标更准确地反映多模态表现;
    • 在预训练阶段加入少量指令微调数据,以避免模型的指令执行能力成为瓶颈。
  • 最终,经过大量评测,DeepSeek-VL 系列(1.3B 与 7B)在视觉语言基准中展现出卓越性能,并在真实应用中提供了更强的用户体验。我们已公开这两种模型,以促进学界与产业界基于此的创新探索。

三、数据构建

  • 多样且大规模的数据集是视觉语言模型训练中最关键的要素。

  • DeepSeek -VL的数据集分为两个部分:

    • 视觉-语言预训练数据(Vision-Language Pretraining Data)
    • 视觉-语言监督微调数据(Vision-Language Supervised Fine-Tuning Data)
  • 视觉-语言预训练数据主要由视觉-文本对(image-text pairs)组成,旨在增强模型的跨模态理解能力;而视觉-语言监督微调数据规模较小,用于训练模型完成特定下游任务。

  • 在整体训练流程中:

    • 第一阶段:使用 VL 预训练数据对视觉-语言适配器进行“预热”;
    • 第二阶段:进行视觉-语言联合预训练;
    • 第三阶段:使用 VL 监督微调数据(SFT)进行精调。

3.1 Vision-Language Pretraining Data(视觉-语言预训练数据)

  • 本文的预训练数据集涵盖了多种公开数据源,也包括部分专有数据。这些数据帮助模型理解图像中的实体和语义关系。将其细分为以下几类:
(1) 交错图文数据(Interleaved Image-Text Data)
  • 这类数据使模型能够在上下文中学习多模态输入,提升“图文混合推理”的能力。主要来源包括:

    • MMC4
    • Wiki
    • Wikihow
    • Epub 教材语料
  • 这些语料中的图片与文字交错分布,帮助模型理解图文共现的语境。

(2) 图像描述数据(Image Caption Data)
  • 用于训练模型进行图像内容生成(captioning)或图像问答。包括三个高质量数据集:
    • Capsfusion
    • TaiSu
    • Detailed Caption
(3) 表格与图表数据(Table and Chart Data)
  • 让模型学会识别和理解结构化视觉信息。涵盖数据源:Chart2Text、Geo170K、Unichart、UReader、M-paper、ScienceQA、ScreenQA、SciGraphQA、Widget Captioning、Refexp 等。

  • 这些数据帮助模型在处理 PDF 表格、科学论文图表时保持高精度的视觉解析能力。

(4) 代码渲染数据(Web Code Data)
  • 用于培养模型从可视化界面反向生成代码(UI Inverse Rendering)的能力。通过对 Websight (HuggingFaceM4, 2024) 等数据的处理,提取了约 146 万个 Jupyter Notebook 文件 与对应图表片段,过滤后保留 110 万高质量实例。模型借此学习“从图到代码”的跨模态映射。
(5) 文档 OCR 数据(Document OCR Data)
  • 让模型具备识别扫描文档文字的能力。包含:
  1. arXiv 论文集(140 万篇 PDF + 源代码)
    • 使用 Nougat(Blecher et al., 2023) 将其转化为图像+文字对。
  2. 电子书与教育资料
    • 来自 Anna’s Archive,共清理 86 万英文电子书与 18 万中文电子书,另有大量 K-12 教材题目。
    • 使用 HTML 渲染工具将其转化为配对的图文格式。
(6) 场景文字 OCR(Scene Text OCR)
  • 增强模型对“环境中嵌入文字”的理解能力(如路牌、海报、商品标签等)。采用多个公共数据集,包括:ArT、MLT-17、LSVT、UberText、Coco-text、RCTW-17、TextOCR、OpenVINO、HierText 等。
(7) 纯文本语料(Text-only Corpus)
  • 用于保持语言能力,与 DeepSeek-LLM 共用同一语料库。这一部分确保模型在多模态训练后依旧具备强大的语言理解与生成能力。

3.2 Supervised Fine-Tuning Data(监督微调数据)

监督微调阶段的数据集包含多种模态与语言类型,主要来源包括:

  • ShareGPT4V

  • LAION-GPTV

  • LVIS-Instruct4V

  • textOCR-GPT4V

  • LLaVA1.6-GPT4V

  • IconQAUReaderScreenQAGeo170KScienceQA 等。

  • 此外,还加入了来自 Screen-to-Code 的界面到代码数据。

  • 本文还自建了高质量的中英多模态指令微调数据集,覆盖识别、推理、分析、问答、安全等多个任务类型。这些数据通过从网络上收集 GPT-4V 与 Gemini 的真实用例,并人工筛选、分析后组织成结构化“任务分类体系(taxonomy)”。

  • 该体系既用于构建训练集,也用于建立相应的评测集,以验证模型在不同任务维度下的表现。这样确保了数据的真实性与代表性,使模型的微调过程更贴近真实用户体验。

  • 此外,还加入 DeepSeek-LLM 的纯文本 SFT 数据,形成完整的视觉 + 语言联合微调体系。

3.3 总结
  • DeepSeek-VL 的数据体系可概括为三层逻辑:
  1. “广”——覆盖全模态、全语境(视觉、文本、结构、代码)。
  2. “真”——以真实使用场景为导向,避免学术拼接式数据。
  3. “平衡”——通过模态热启动与双阶段训练,保持语言与视觉的融合能力。
  • 这使得 DeepSeek-VL 在面对复杂现实任务(如读图问答、表格解析、界面识别)时能展现出强大的泛化与理解能力。

预训练阶段数据概览

数据类型 来源与示例 主要目标 特点
交错图文数据 MMC4、Wiki、Wikihow 等 学习图文上下文关系 图文混合语义理解
图像描述数据 Capsfusion、TaiSu、Detailed Caption 等 图像生成与理解 高质量语义对齐
表格与图表 Chart2Text、ScienceQA、Geo170K 等 理解结构化视觉 支持 PDF/科研类任务
代码渲染数据 Websight、Stack 等 图→代码生成 具备 UI 重建能力
文档 OCR arXiv、E-book 教材 文字识别与语义重建 中英双语文本覆盖
场景 OCR ArT、MLT-17、TextOCR 等 环境文字识别 强化视觉细节捕捉
纯文本语料 DeepSeek-LLM 保持语言能力 稳定语言生成力

微调阶段数据概览

数据类型 来源与示例 主要目标 特点
多模态指令调优 ShareGPT4V、LLaVA1.6、ScienceQA、UReader 等 提升任务执行能力 真实任务覆盖面广
自建中英数据集 GPT-4V & Gemini 实测样例 提升人机交互体验 与视觉场景高度对齐
文本 SFT 数据 DeepSeek-LLM 保持语言一致性 语言协调平衡训练

四、方法

4.1 体系结构

  • 系统由三部分组成:一个混合视觉编码器、一个视觉适配器、以及一个语言模型。
混合视觉编码器(Hybrid Vision Encoder)
  • 本文使用 SigLIP 作为视觉编码器,从视觉输入中抽取高级语义特征。但单一的 SigLIP 编码器无法覆盖真实世界里所有问题。CLIP 系列(含 SigLIP)主要面向语义表示学习,容易受到模糊编码影响,导致在视觉上差异很大的图像被编码成相似表示(称为 “CLIP-blind pairs”)。另外,CLIP 家族通常只能接收较低分辨率输入(如 224×224、336×336、384×384、512×512),这限制了它们处理需要更细粒度低层特征的任务,例如密集 OCR视觉指代/定位(visual grounding)
  • 为弥补这些限制,近期研究主张引入仅视觉(vision-only)自监督编码器,增强多模态模型的视觉定位能力。基于此,本文额外采用一个基于 SAM-B(Segment Anything Model 的 B 变体)并结合 ViTDet 的视觉编码器来处理低层特征,该编码器支持高分辨率 1024×1024 图像输入。与此同时,本文保留 SigLIP-L(低分辨率 384×384)作为语义编码器。最终,我们的混合视觉编码器并行结合了 SAM-B 与 SigLIP-L:既能编码高分辨率细节,又保留语义信息。
  • 混合视觉编码器具体流程:SAM-B 首先把原图缩放到 1024×1024,输出一个 64×64×256 的特征图。对于这个高分辨率特征图,VL Adaptor(视觉-语言适配器)先将其插值到 96×96×256,再用两个步幅为 2 的卷积层,把特征图变为 24×24×1024,最后整形为 576×1024。与此同时,SigLIP-L 产生的低分辨率特征也被处理成 576×1024,并与高分辨率特征在通道维拼接,得到 576 个视觉 token、每个 2048 维。这些视觉 token 兼具高级语义识别与低层定位能力。随后施加 GeLU 激活,经嵌入层映射到与 LLM 对接的空间。
  • SigLIP 负责“语义”,用 SAM-B/ViTDet 负责“细节/定位”,二者融合,既能看懂是什么,也能看清在哪儿/细节如何。高分辨率路径经过降采样压成固定长度的视觉 token,便于与 LLM 对接。
视觉-语言适配器(Vision-Language Adaptor)
  • 为了把视觉编码器与 LLM 打通,本文使用两层混合 MLP。开始时用两个独立的单层 MLP分别处理高、低分辨率特征,随后在通道维拼接,再经另一层 MLP投到 LLM 的输入空间。
  • 相当于把两路视觉特征做对齐与压缩,形成 LLM 能直接消费的“视觉 token 序列”。
语言模型(Language Model)
  • 语言部分基于 DeepSeek-LLM。其微观设计与 LLaMA 系同源,采用 RMSNorm 的 Pre-Norm 结构、前馈网络使用 SwiGLU 激活,中间层维度为 8 3 d model \frac{8}{3} d_{\text{model}} 38dmodel,位置编码用 RoPE,分词器与 DeepSeek-LLM 相同。我们引入一个 DeepSeek-VL 模型家族。为进行多模态+语言的联合预训练,我们从 DeepSeek 预训练模型的一个中间 checkpoint继续训练。
  • DeepSeek-VL-1B 基于 DeepSeek-LLM-1B(在约 5000 亿 token 语料上训练);DeepSeek-VL-7B 基于 DeepSeek-LLM-7B(在约 2 万亿 token 语料上训练)。
  • 语言底座直接复用成熟的 DeepSeek-LLM,不从零开始;再叠加视觉通路与适配器做联合预训练。

4.2 训练流水线

把 DeepSeek-VL 的训练分三阶段:阶段1 适配器预热阶段2 联合多模态预训练阶段3 监督微调(SFT)。当前更侧重视觉理解,语言部分只计算下一词预测损失

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阶段1:训练视觉-语言适配器
  • 目标是在嵌入空间建立视觉与语言的概念性连接,帮助 LLM 理解图像所指物体。与 LLaVA、Instruct-BLIP 等类似,本阶段冻结视觉编码器与 LLM仅训练 VL 适配器。数据来自 ShareGPT4V 的 125 万图文对描述,加上 250 万 文档-OCR 渲染对
  • 然而,适配器(2 层 MLP)参数量很小,能力上限有限。在后续的实验也发现(表8):把本阶段的数据规模加大并无收益,甚至下降,因此在阶段2解冻 LLM,探索更有效的联合预训练。
  • 阶段1是“打通通路”而不是“学强能力”;未冻结小模型/小适配器容量太小,表达能力有限,即使喂入更多训练数据,也无法学到更复杂的视觉-语言对齐关系。
阶段2:联合多模态预训练(Joint Vision-Language Pretraining)
  • 在这一阶段,作者尝试让 LLM 与视觉模态共同训练,实现语言与视觉的深度融合。

  • 直接用多模态数据训练 LLM 时,实验发现:多模态指标有提升,但语言指标显著下降(下图,当多模态:语言=100%:0%)。说明在 LLM 上直接进行多模态预训练存在增强多模态 vs. 保持语言能力的权衡

在这里插入图片描述

  • 这张图比较了训练阶段2中不同多模态:语言数据配比的效果:多模态占比越高,SeedBench/MMBench 等多模态指标越好;但同时 MMLU、HellaSwag 等纯语言指标明显下降且 Pile 困惑度上升,体现出语言能力“遗忘”;相较极端的 100% 多模态,约 70%:30%(或 75%:25%) 的配比在显著提升多模态能力的同时,能较好地抑制语言能力退化,达到更均衡的整体表现。

  • 对实验的假设:(1) 多数多模态语料过于简单、分布与纯文本差异大;(2) 模态间存在竞争,易造成语言能力灾难性遗忘

  • 为了解决这一问题,作者提出了一种联合训练策略:在训练中同时混合使用纯语言数据与多模态数据,并将比例控制在大约 语言 : 多模态 = 7 : 3。这种设计既能保持语言能力的稳定,又能保证模型持续学习视觉信息。

    • 实验结果表明,这种比例下的混合训练在 VL-1B 模型上效果最佳。混入语言数据后,语言退化问题显著缓解;同时,语言数据的引入并不会明显降低多模态任务的学习速度。此外,实验还发现各模态在训练集中的比例会直接决定模型在对应任务上的表现,这进一步验证了模态间确实存在竞争关系。
  • 在扩展到更大模型的过程中,本文首先在 1.3B 参数规模上进行预训练,然后将结果迁移到 7B 模型上,以节省计算资源。然而,他们在 1.3B 阶段发现模型训练存在较大波动:生成指标起伏剧烈,难以保持稳定。经过分析,他们认为原因在于小模型的容量有限,同时缺少监督微调(SFT)数据的引导,使得模型即便“知道答案”,也难以准确生成。

  • 缓解方法(双管齐下)

    • 引入 多选 PPL(困惑度)监控:对每个选项(A/B/C/D)都计算 PPL,以 PPL 最小者作为模型答案——这能稳定 1.3B 的评测;
    • 在阶段2中以极小比例加入 SFT 数据,让模型提前获得一点指令遵循能力。两者结合使 1.3B 的训练指标更稳,并为阶段3带来更好起点。
阶段3:监督微调(Supervised Fine-tuning, SFT)
  • 在这一阶段,本文用基于指令的数据对预训练好的 DeepSeek-VL 做指令跟随与对话微调,得到交互式的 DeepSeek-VL-Chat。我们主要优化语言模型与 VL 适配器;由于显存限制,SAM-B(高分支)保持冻结。作者只监督答案与特殊 token,并对系统与用户提示进行掩码。为保证对话通用性,还混合使用多模态对话数据DeepSeek-LLM 的纯文本对话数据

  • 阶段3把模型训练成“会聊天、会执行指令”的多模态对话模型;高分辨率分支不再更新以省显存。

在这里插入图片描述

  • DeepSeek-VL的语言能力:DeepSeek-VL 可以理解 Python 代码并提供详细和组织的解释。

4.3 超参数与训练基础设施(Hyperparameters and Infrastructures)

  • 本文基于 HAI-LLM(轻量高效的分布式训练框架)训练与评测 DeepSeek-VL。视觉编码器把图像转成向量,再与文本嵌入统一处理,这样可容易地做流水线并行:把视觉编码器 + 文本嵌入看作最终模型的第一层,按层切分即可。
  • 视觉分支第一层结构复杂,无法直接使用标准张量并行,但其计算量相比上层 Transformer 块较小,因此把视觉编码器的前向在所有张量并行 rank重复计算。视觉编码器的存在也会导致各层执行时间不均;为更好的负载均衡与吞吐,本文重新划分了流水线阶段。

DeepSeek-VL 的上层与 DeepSeek-LLM 完全一致。稍作修改后,即可采用标准的 3D 并行(张量/流水线/数据并行),并叠加 Megatron 系列技巧与通信-计算重叠。资源与耗时:

  • VL-7B:在 64 台节点(每台 8×A100)上训练 5 天
  • VL-1B:在 16 台节点上训练 7 天
  • 视觉当作“第一层”并行,有利于把多模态训练无缝接入现有 LLM 分布式栈;视觉前向复用以换取实现简洁与稳定吞吐。
  • 模型的超参数设置如下:

在这里插入图片描述

五、 Evaluation(评测)

5.1 公共多模态基准评测(Public Multimodal Benchmarks Evaluation)

  • 本文在一系列公开基准上评估模型:
    • 综合多模态理解数据集:MMMU、CMMMU、MMBench、MMBench-CN、SeedBench 和 MMV。由于 MMB/MMC-dev 的官方测试下载链接已不可用,本文将 DeepSeek-VL 与这些基准中的对手进行比较。
    • 图表/表格理解:OCRBench。
    • 幻觉(Hallucination)评测:POPE。
    • 科学问题:ScienceQA 与 MathVista。
  • 本文采用生成式评测并使用贪心解码。所谓生成式评测,是让模型生成自由文本,再从生成的文本里解析出结果。比较结果(见下表)显示:DeepSeek-VL-7B 在多数广泛的基准上超过了同尺寸的开源模型

在这里插入图片描述

  • DeepSeek-VL 在 MMB、MMC、SEEDBench 等基准上超越开源同尺⼨模型,甚至在某些项目上接近闭源模型的表现(例如与 GPT-4V 在 SeedBench 上的 71.6 vs. 70.4),这表明它具有很强的自然图像理解能力。在数学逻辑相关任务上,模型也超过了所有开源同类模型,但依然显著落后于闭源模型(例如 MathVista 上 36.1 vs. 47.8),这差距可能来自底座模型规模差异。
  • 此外,如下表 所示,DeepSeek-VL-1.3B 明显优于同尺⼨模型,在 MMB 等基准中即使用更少的参数(1.3B vs. 2.7B)也取得更强表现,显示其稳健的图像理解能力;在 MathVista 上甚至可以达到与 7B 开源模型相当的成绩,进一步验证了该系列在逻辑理解上的潜力。

在这里插入图片描述

  • 主要强调了两点:其一,7B 版在公开多模态基准上全面对开源同量级占优;其二,1.3B 版“以小博大”,在若干场景与更大的开源模型打平或更好。短板主要在数学/逻辑这类需要更强语言推理的任务上,和闭源大模型仍有差距。

5.2 公共纯语言基准评测(Public Language Benchmarks Evaluation)

  • 在以下公开语言基准上评估模型:

    • 多学科多选:MMLU;
    • 语言理解与推理:HellaSwag;
    • 语言建模:Pile(按 bits-per-byte 计分);
    • 数学:GSM8K;
    • 代码:MBPP;
    • 标准化考试:AGIEval。
  • 对需要在若干选项中二择一/多择一的任务,本文使用困惑度(Perplexity)评测:分别计算每个选项的 PPL,取最低者作为模型预测,以避免严格匹配带来的不稳定;对 GSM8K 与 AGIEval 等生成任务,本文使用生成式评测+贪心解码;对 Pile,本文按语言建模 Bpb 计分。结果见下表。

在这里插入图片描述

  • 可以观察到:在大多数语言基准上,DeepSeek-VL 的表现与 DeepSeek-7B 相当或略有超越。例如在 HellaSwag 上达到 68.4 分(对比 68.5),说明多模态训练并未破坏语言能力,甚至可能帮助语言任务。然而,在数学(GSM8K)上 DeepSeek-VL-7B 有一定程度的下降,提示即便努力在视觉与语言之间寻求和谐,二者之间仍存在竞争关系;这个问题在更大的模型规模下可能被缓解。总体而言,DeepSeek-VL 试图在提升多模态能力的同时,把语言能力的下降降到最低。
  • 关键结论:多模态联合训练没有显著伤害语言基线(与同底座 7B 相当),但数学推理仍是弱项;这与前文“语言:多模态=7:3 的混合训练策略”呼应,证明该策略在实践中有效。

5.3 人工评测(Human Evaluation)

  • 为了进一步探索 DeepSeek-VL 的能力,本文独立构建了一个人工评测集,共 100 个问题,分为 7 个大类、覆盖若干具体任务(与之前讲的自建 SFT 数据的分类一致)。本文根据已有报告中的类别与任务,收集了相似的图片材料并编写提示;图像来源包含免版权社区与研究者自拍。这种构建流程确保数据集全面且具有代表性,更贴近真实应用。
  • 本文将 DeepSeek-VL-7BInternLM-XComposer2-VL、CogVLM 以及 GPT-4V 进行比较(如下图)。GPT-4V 在多数维度上仍最强,尤其在逻辑推理上优势明显,说明LLM 规模很关键。所有开源模型在“推理”上与 GPT-4V 差距较大;而 DeepSeek-VL-7B 在总体表现上优于其它开源模型,在识别(Recognition)、转换(Conversion)与常识推理(Commonsense Reasoning)等方面取得接近 GPT-4V 的结果。

在这里插入图片描述

  • 此外,本文还采用 GPT-4V 作为评审进行对比评测:对 99 组样例,向 GPT-4V 同时展示两个模型的答案,判断谁更好或打平。结果显示:与开源模型 Fuyu-8B、CogVLM-17B、InternLM-XComposer2-VL 相比,GPT-4V 在 60% 以上的样例中更偏好 DeepSeek-VL 的答案;与部分闭源模型对比时,DeepSeek-VL 也展现出相当优秀的表现。
  • 人工评测与“GPT-4V 做裁判”的双重证据,证明 DeepSeek-VL-7B 在开源阵营中处于领先位置;但与 GPT-4V 的差距主要集中在高级逻辑/推理维度,跟底座规模与训练资源密切相关。

5.4 消融研究(Ablation Study)

扩大适配器(Adaptor/Projector)训练数据
  • 本文把阶段 1(适配器预热)的数据规模扩大,再进行后续 SFT。下图的结果表明:在这个阶段单纯扩数据并不能带来性能提升,暗示适配器的容量先天受限,无法承载多模态任务所需的大量知识。

在这里插入图片描述

  • 再次验证前文“小适配器靠堆数据不灵”——受限的是模型容量,不是数据量。
训练阶段贡献
  • 下表分析了各阶段的贡献。把阶段 1+2+3 结合起来,明显优于仅用 阶段 1+3,说明多模态联合预训练(阶段 2)是有效的。此外,阶段 2+3 略逊于 1+2+3,意味着阶段 1 的适配器预热仍然有价值

在这里插入图片描述

  • 三阶段缺一不可:阶段 1 打通对齐,阶段 2 强化多模态,阶段 3 做指令化。缺了阶段 2 会掉分,缺阶段 1 也影响最终融合质量。
模态分组训练(Modality Group Training)
  • 直接在同一批次里混合语言与多模态样本会显著降低训练效率,因为反向传播会被最慢样本牵制(多模态样本处理更慢)。为此,本文尝试在全局步层面进行分组采样:某些步只取语言样本,另一些步只取多模态样本,而不是在同一批次里混合。图 8 显示,这样做不损失性能,且效率提升约 20%,有效绕开不同模态处理时延差带来的瓶颈。
  • 工程层面的优化:把“同批混合”改成“步级分组”,省时不降效。
模态热身(Modality Warmup)
  • 在大语言模型的基础上直接按固定比例混入多模态数据,会在训练开头显著拉低语言能力。我们提出一个简单有效的热身策略:起始阶段语言比例设为 1,然后逐步下降到目标比例(如 0.7)。如下图,这样能避免开头的语言能力骤降,并在最终的语言与多模态表现上都取得更好的结果。逐步适应让模型更平稳地接纳多模态数据,从而整体提升稳定性与性能。

在这里插入图片描述

  • 这与学习率 warmup 类似,是数据配比的 warmup:先“纯语言”,再逐步加“多模态”,稳。
视觉编码器选择(Vision Encoder Selection)
  • 在我们的训练设定下(将阶段 2 的步数缩到 8000 以做效率对比),引入仅视觉自监督编码器能显著提升表现(见下图)。为更有效处理高分辨率图像,我们最终采用SigLIP + SAM 的混合视觉编码器

在这里插入图片描述

  • 证据链支持“SigLIP(语义)+SAM/ViTDet(高分细节)”的双分支选择是正确的。
视觉-语言适配器设计(VL Adaptor Design)
  • 为在当前 token 长度受限条件下更高效地提取图像信息,VL 适配器有两种可调方向:
    1)视觉特征的组合方式;2)MLP 适配器的结构
  • 先前研究表明,沿图像宽/高方向堆叠视觉 token 以保持序列长度不变,并不一定比在嵌入维度上直接合并更好;
  • 在适配器结构上,为不同视觉编码器分别使用独立的 MLP,有助于针对各自特征分布做精细调整,使训练更平滑;而共享同一个 MLP 虽然能促进融合,但不一定足够。我们采用混合策略,并在表 10 的下半部分报告了更稳定、也更优的表现。
  • 两点实践经验:“通道合并”往往比“序列堆叠”更稳更好(也更省 token);“分支专用 MLP + 最终融合” 比“一把梭共享 MLP”更容易训稳、效果更佳。

5.5 总结

  • 论文在评测与消融中给出三条清晰结论:一是 VL-7B 在开源同量级多模态基准上整体领先,VL-1.3B 也展现了“以小胜大”的稳健性;二是 多模态训练不必然伤害语言能力,通过语言:多模态≈7:3模态热身步级分组训练,既能守住语言指标,又能拉升视觉理解;三是 结构选择与容量边界很关键:小适配器扩数据无用,SigLIP+SAM 的混合视觉编码器分支独立 MLP 的 VL 适配器在工程上更稳、在性能上更优。

点实践经验:“通道合并”往往比“序列堆叠”更稳更好(也更省 token);“分支专用 MLP + 最终融合” 比“一把梭共享 MLP”更容易训稳、效果更佳。

5.5 总结

  • 论文在评测与消融中给出三条清晰结论:一是 VL-7B 在开源同量级多模态基准上整体领先,VL-1.3B 也展现了“以小胜大”的稳健性;二是 多模态训练不必然伤害语言能力,通过语言:多模态≈7:3模态热身步级分组训练,既能守住语言指标,又能拉升视觉理解;三是 结构选择与容量边界很关键:小适配器扩数据无用,SigLIP+SAM 的混合视觉编码器分支独立 MLP 的 VL 适配器在工程上更稳、在性能上更优。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐