【多模态学习：第0期】多模态学习路线规划和经典论文阅读计划

本文总结了多模态大模型的算法和工程优化要点，探讨了多模态学习的关键技术和发展方向，为相关研究者提供了参考。欢迎对多模态AI感兴趣的朋友共同交流讨论。

爱学习的柏少

452人浏览 · 2025-10-04 20:44:19

爱学习的柏少 · 2025-10-04 20:44:19 发布

最近在学习多模态的算法和工程优化，以下是个人的一些总结，对多模态大模型有兴趣的朋友欢迎讨论交流~

1 多模态学习路线规划

2 经典论文阅读计划


模型	论文链接	发布时间	一句话描述贡献
Transformer（Attention Is All You Need）	arXiv:1706.03762	2017-06	提出 Transformer 架构，完全基于自注意力机制，无需 RNN/CNN，奠定后续所有 LLM 与多模态大模型的通用底座。
ViT	arXiv:2010.11929	2020-10	首次证明“纯 Transformer 直接作用于 16×16 图像块序列”即可在大规模预训练后取得 SOTA 分类效果，无需卷积。
CLIP	arXiv:2103.00020	2021-02	利用 4 亿图文对训练双塔 Transformer，实现“零样本”图像分类与图文检索，把视觉概念映射到文本语义空间。
Flamingo	arXiv:2204.14198	2022-04	在冻结的 LLM 前插入交叉注意力池化层，仅用少量图文交错数据就能让模型输出开放式文本描述，奠定“冻结 LLM + 视觉连接器”范式。
BLIP-2	arXiv:2301.12597	2023-01	提出轻量 Q-Former 把 ViT 特征压缩成 32 个查询 token，零样本指令下也能让冻结的 LLM 生成准确字幕并回答视觉问题。
LLaVA	arXiv:2304.08485	2023-04	将图片切块经 ViT 线性投影后与文本 prompt 拼接，端到端微调 LLM，首次展示 GPT-4 级多模态对话能力且代码开源。
GPT-4V	无论文（技术报告）	2023-09	OpenAI 公布的 GPT-4 视觉接口，用同一套 Transformer 同时接受图像+文本输入并生成文本，首次把大规模多模态能力产品化。
Gemini	arXiv:2312.11805	2023-12	Google 发布的多模态 Gemini 系列，用原生 Transformer 端到端训练文本、图像、音频、视频统一 tokenizer，在多项基准上超越 GPT-4V。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla