12张动图全面剖析 MCP/RAG/Agent/Cache/Fine-tuning/Prompt/GraphRAG 等核心技术

因此，在检索过程中，由于余弦相似度高于实际包含答案的文档，会检索到几个不相关的块。使 LLM 应用如此强大的不仅仅是它们准确预测下一个 token 的能力，还有它们通过推理得出答案的能力。图 RAG 通过图结构使其更加健壮，这有助于它构建长距离依赖关系，而不是 RAG 中发生的局部文本分组。专家混合模型（MoE）是一种流行的架构，它使用不同的“专家”来改进 Transformer 模型。好了，这就

musicml

555人浏览 · 2025-08-14 08:02:25

musicml · 2025-08-14 08:02:25 发布

大家好，我是玄姐。

▼ 《AI 大模型应用架构返场周》7场干货直播，预约保你有收获

本文通过 12 张动图全面剖析 MCP、RAG、Agent、Cache、Fine-tuning、Prompt、GraphRAG 等 AI 大模型应用核心技术。

下文我们详细剖析之。

—1—

12张动图全面剖析 AI 大模型应用核心技术

1、函数调用和 MCP 在 LLM 中的应用

在 MCP 流行之前，AI 大模型应用工作流程依赖于传统的函数调用来访问工具。

现在，MCP（模型上下文协议）正在改变开发者为 AI 智能体构建工具访问和编排的方式。

2、从头开始训练 LLM 的四个阶段

这张图涵盖了从零开始构建 LLM 并将其应用于现实世界的四个阶段。

这些阶段包括：

预训练
指令微调
偏好微调
推理微调

3、LLM 中的三种推理提示词技巧

使 LLM 应用如此强大的不仅仅是它们准确预测下一个 token 的能力，还有它们通过推理得出答案的能力。

这张图涵盖了三种流行的提示词技巧，帮助 LLM 在回答之前更清晰地思考。

4、使用其他 LLM 训练 LLM（蒸馏）

LLM 不仅从原始文本中学习；它们也相互学习：

Llama 4 Scout 和 Maverick 是使用 Llama 4 Behemoth 训练的。
Gemma 2 和 3 是使用谷歌专有的 Gemini 训练的。
蒸馏帮助我们做到这一点，下面的图描绘了三种流行的技术。

5、LLM 中的监督与强化微调

RFT 让我们可以将任何开源 LLM 转变为推理强国，而无需任何标记数据。

这张图涵盖了监督微调和强化微调之间的区别。

6、Transformer 与专家混合模型

专家混合模型（MoE）是一种流行的架构，它使用不同的“专家”来改进 Transformer 模型。

专家就像前馈网络，但比传统 Transformer 模型中的网络小。

7、传统 RAG 与智能体 RAG

简单的 RAG 检索一次并生成一次，它不能动态搜索更多信息，也不能通过复杂查询进行推理。

此外，适应性很小。LLM 无法根据手头的问题修改其策略。

智能体 RAG 解决了这个问题。

8、5 种 AI 智能体设计模式

AI 智能体行为允许 LLM 通过自我评估、规划和协作来完善其输出！

这张图描绘了构建 AI 智能体时采用的 5 种最流行设计模式。

9、AI 智能体系统的 5 个级别

AI 智能体系统不仅仅是生成文本；它们做出决策、调用函数，甚至运行自治工作流程。

这张图解释了 AI 智能体的 5 个级别——从简单的响应者到完全自治的 AI 智能体。

10、传统 RAG 与 HyDE

传统 RAG 系统的一个关键问题是，问题与答案在语义上不相似。因此，在检索过程中，由于余弦相似度高于实际包含答案的文档，会检索到几个不相关的块。

HyDE （Hypothetical Document Embeddings）假设文档嵌入技术通过首先生成一个假设性的回答来解决这个问题。

11、RAG 与图 RAG

回答需要全局上下文的问题对于传统 RAG 来说很困难，因为它只检索最相关的前 k 块。

图 RAG 通过图结构使其更加健壮，这有助于它构建长距离依赖关系，而不是 RAG 中发生的局部文本分组。

12、KV 缓存

KV 缓存是一种用于加速 LLM 推理的技术。

简而言之，我们不是冗余地计算所有上下文 tokens 的 KV 向量，而是缓存它们。这在推理过程中节省了时间。

好了，这就是我今天想分享的内容。如果你对构建多 AI 大模型应用新架构设计和落地实践感兴趣，别忘了点赞、关注噢~

PS：

以上干货内容只是全新《AI 大模型应用新架构师课程》的很小一部分内容，为了帮助大家全面了解《AI 大模型应用新架构师课程》的内容，8月4日-8月10日会搞一次持续7天的 AI 大模型架构技术干货分享周，欢迎点击预约。

▼ 《AI 大模型应用架构返场周》7场干货直播，预约保你有收获

—2—

加我微信

扫码加我👇有很多不方便公开发公众号的我会直接分享在朋友圈，欢迎你扫码加我个人微信来看👇

加星标★，不错过每一次更新！

⬇戳”阅读原文“，立即预约！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla