别再只聊GPT-4V了!LLaVA开源实战,这才是你简历上最亮眼的多模态项目!
现有的图文大模型(如CLIP、BLIP、BLIP-2、Flamingo等)虽然具备一定的视觉语义能力,但它们普遍缺乏明确的“指令跟随能力”。大语言模型(LLM)通过 instruction tuning 已经证明:只用机器生成的指令数据就能明显提升零样本能力。指令可以作为通用接口,使模型根据语言切换不同任务。然而,在 多模态领域几乎没有类似的 instruction tuning 工作。
现有的图文大模型(如CLIP、BLIP、BLIP-2、Flamingo等)虽然具备一定的视觉语义能力,但它们普遍缺乏明确的“指令跟随能力”。大语言模型(LLM)通过 instruction tuning 已经证明:只用机器生成的指令数据就能明显提升零样本能力。指令可以作为通用接口,使模型根据语言切换不同任务。然而,在 多模态领域几乎没有类似的 instruction tuning 工作。
LLaVA(Large Language and Vision Assistant)的核心目标,是构建一个能够同时理解视觉与语言指令的大模型,让图像中的细节能被自然语言模型有效吸收,从而实现通用型视觉问答(VQA)与多模态对话能力。
一、模型架构
为了达到这种跨模态融合效果,LLaVA采取了一种极度简洁但高效的体系结构:使用强大的预训练语言模型作为“主体大脑”,结合成熟的视觉编码器提取图像语义,再通过一个轻量级投影层完成模态对齐。

1.视觉编码器(Vision Encoder)
在图像部分,LLaVA 采用了经过大规模训练的 CLIP ViT-L/14 作为视觉编码器 。
给定一张输入图像 ,视觉编码器会输出视觉特征:
这里的 通常是来自最后一个 Transformer block 之前或之后的 grid features。这些特征具有强语义性,包含图像中的关键物体、关系与属性信息。
CLIP 的选择并非偶然: 它具有优秀的跨模态对齐能力,使得视觉特征天然更接近语言表征空间,为后续的融合操作提供了先验优势。
2.投影层(Projection Layer)
将视觉特征直接输入语言大模型显然是不可能的,因为两者的 embedding space 完全不同。 LLaVA 采用了一个线性投影层 来完成视觉→语言的空间映射:这里:
- CLIP 视觉编码器的输出特征
- 可训练的线性映射矩阵
- 与语言词嵌入等维度的视觉 tokens
经过投影后的 作为视觉特征token,其维度与 LLM 的文本特征token完全一致,从而可以直接拼接到文本token 序列中。
LLaVA 的投影层非常轻量,这带来几个明显优点:
- 参数量小,训练效率高
- 易于进行数据集快速迭代
- 可以直接利用强大的预训练LLM,而不是打破其结构重新设计 cross-attention
尽管如此,作者也指出更复杂的融合方式(如 Flamingo 的 gated cross-attention、BLIP-2 的 Q-Former)有更高的潜力,但这属于后续研究方向。
3.语言大模型(LLM)
融合后的视觉 token 会与用户提供的语言指令 token 拼接后,统一输入预训练语言大模型 Vicuna:
Vicuna 在此作为最终的推理主体,负责:
- 利用自注意力机制理解图像 tokens 与文本 tokens 之间的关系
- 执行多轮推理
- 生成结构化、逻辑性强的自然语言回答
- 支撑开放式视觉对话、描述与分析任务
选择 Vicuna 是因为它在开源模型里具有最强的指令跟随能力,能进行良好的多轮对话与推理。
二、数据集构建
LLaVA 的训练成效并非仅来自模型结构设计,更关键的突破点在于其数据构建方法:一种利用纯文本的大语言模型 GPT-4 自动生成大规模多模态指令数据的策略。
现有公开多模态数据虽然规模巨大,但以图像描述(caption)为主,缺乏以下能力:
- 基于图像的指令跟随任务(instruction-following)
- 多轮对话数据
- 涉及视觉属性、空间关系、计数等细粒度问题
- 深度推理
因此,单纯依赖图文对齐训练无法让模型获得 ChatGPT 这样的对话式理解能力。
1.核心方法
由于文本大模型无法直接接收图像,LLaVA 使用符号化视觉表示作为媒介,将图像转化为文本模型可理解的结构化信息。
下面展示的是一段用于构建 LLaVA 类视觉指令数据集的示例内容,包括图片描述、目标检测信息,以及用于 few-shot 对话构建的模板代码。此示例体现了多模态数据构建的基本结构:图像内容 → 文本描述 → 模型提示(prompt)模板。
图片内容:

文本描述
一群人站在一辆黑色车辆外面,旁边有各种行李。
行李围绕着一辆停在地下停车场的车辆。
人们试图把所有行李塞进一辆 SUV。
这辆 SUV 停在公共车库里,人们正在为一次旅行打包。
一些人带着行李站在一辆面包车旁,这辆车正在运输这些行李。
目标检测信息
person: [0.681, 0.242, 0.774, 0.694],
backpack: [0.384, 0.696, 0.485, 0.914],
suitcase: …
模板提示(prompt)
你是一个 AI 视觉助手,正在查看一张图片。你所看到的内容通过五个句子来描述,所有句子描述的是同一张图片。请向我提问问题,仿佛你正在看着图片并回答问题。设计一个你与提问者之间的对话,使提问者询问关于这张照片的内容。回答应该以视觉 AI 助手正在看图片并回答问题的语气来进行。提问一些多样性的的问题,并给出相应的回答。包括一些关于图片内容的问题,比如物体的类型、物体的数量、物体的动作、物体之间的相对位置等。只包括可以确定有明确答案的问题:
(1)问题内容在图片中可以看到,并且能够准确地回答;
(2)可以从图片中自信地确认没有该内容。不要问任何无法自信回答的问题。
还可以包括一些复杂的问题,确保这些问题与图片的内容相关,例如,询问图片中物体的背景知识、或者询问图片中发生的事件等。再次强调,不要问任何不确定的细节。在回答复杂问题时,需要提供详细的答案。例如,给出详细的示例或推理步骤,使内容更加令人信服和条理。如果有必要,可以包含多个段落。
2.生成训练数据
最终,我们构建了三类核心训练数据,全面覆盖多模态理解的多个维度:
**视觉对话:**旨在赋予模型在视觉-语言联合空间中进行情境化多轮交互的能力
问题: 图片中的车辆是什么类型的?
回答: 图片中展示的是一辆黑色的 SUV。
问题: 车辆停在哪里?
回答: 车辆停在一个地下停车场,可能是一个公共车库。
问题: 图片中的人们在做什么?
回答: 这些人正在努力将所有行李放进 SUV 里,可能是在为一次旅行做准备。
详细描述:训练模型对视觉场景进行结构化归纳与重建,实现超越标注的深度理解
这张图片展示了一个地下停车场,里面停着一辆黑色的运动型多功能车(SUV)。场景中有三个人,一人站在车辆左侧稍近的地方,另一人站在中间,第三个人则站在右侧。他们正一起努力将行李装进 SUV,为旅行做准备。在停车场中,各种行李散布在车辆周围。两只背包分别放在左后轮附近和靠近车辆右侧的地方。此外,还有两只行李箱,一只位于车辆右侧,另一只则放在停车场中央较远的位置。左侧还可以看到一辆自行车。车辆周围停着其他几辆车,一辆车停在 SUV 的后方并稍微偏左,另一辆车停在它的右后方,还有第三辆车停在更远的右侧。
**复杂推理:**则通过注入因果与逻辑链数据,驱动模型完成从感知到认知的关键跃迁,从而实现真正的视觉语言智能。
问题:这些人面临什么挑战?
回答: 在这张图片中,一群人站在一辆黑色 SUV 的外面,周围有各种行李,包括行李箱和背包。他们面临的挑战是如何将所有行李装进这辆 SUV。行李箱和背包数量众多,暗示着这群人携带了相当多的物品需要安置。他们可能需要策略性地安排行李,以确保所有物品都能恰当地放进车里。此外,他们还需要考虑乘客的舒适度和驾驶视线,所以行李的摆放必须避免遮挡驾驶员的视线或使乘客在旅行中感到不适。
论文中最终收集了 158K 指令样本,来源于 COCO 图像。借助 GPT-4,LLaVA 构建了三类高质量指令数据。
三、模型训练
为了让大语言模型具备真正的“看图说话”能力,LLaVA 采用了一套非常清晰但效果出色的训练策略:构造多模态指令数据 + 两阶段训练(特征对齐 → 全模型微调)。这一设计既保持了模型训练的高效性,又最大程度发挥了预训练视觉编码器和 LLM 的能力。
1.统一的多模态输入格式
LLaVA 的训练数据本质上是多轮对话,但每轮对话中可以包含图像。
为了让语言模型能够理解“什么时候该参考图像”,LLaVA 将训练输入组织为:

其中:
- 图片以视觉特征的形式插入到 token 序列中
- 每一轮问答都被视为 Human–Assistant 的对话
用于让模型学习何时停止生成 - 模型只学习 Assistant 部分的 token(即绿色区域)
2.多轮指令构造方式:
对于每张图,LLaVA 会生成一个多轮对话数据,例如:
Q1, A1, Q2, A2, …, QT, AT
但训练时需要“把哪一轮的问题作为当前指令”,论文使用了一个非常简单但有效的策略:
- 第一轮固定使用:图像 + 第一个问题
- 后续轮次随机选择“只给问题”或“给之前的问题 + 图像”
- 最终形成一个统一格式的“多模态指令序列”。
3.两阶段训练
视觉特征对齐: 这一阶段只训练视觉投影层W,让图像特征能够映射到 LLM 的词向量空间中。
- 视觉编码器 CLIP ViT-L/14:冻结
- 大语言模型 Vicuna:冻结
- 只有视觉投影矩阵:可训练
训练数据来自 595K 的 CC3M 图文对。
端到端多模态指令微调: 在特征对齐之后,模型具备“看图能力”,下一步是让它学会“遵循复杂指令”。
- 视觉编码器:冻结
- 视觉投影层 W:继续训练
- LLM:开始参与训练
使用的训练数据包含两类:Multimodal Chatbot(158K 多模态指令数据)、ScienceQA(科学推理数据)
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

以上资料如何领取?

为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)