从零开始学AI大模型应用架构：全景技术栈与设计模式

文章全面介绍AI大模型应用架构设计全貌，涵盖从基础设施到应用层的完整技术栈。详细阐述企业级开发知识体系、智能体执行引擎、ReAct架构、RAG记忆系统、Agentic RAG架构、MCP架构设计等关键技术，并提出基于MCP的AI应用架构新范式，为开发者提供系统化学习路径。

bug樱樱

837人浏览 · 2025-11-22 18:04:23

bug樱樱 · 2025-11-22 18:04:23 发布

前排提示，文末有大模型AGI-CSDN独家资料包哦！

本文将结合个人业余时间学习内容，浅析AI大模型应用结构设计的全貌及相关技术。仅供学习和交流。附件附大模型知识地图。

1.AI大模型应用技术体系全景视图

下图从应用层、应用架构层、应用技术层、模型层、云原生层和基础设施层展示了从底层基础设施到上层应用的完整技术栈，涵盖了硬件资源、容器化技术、模型训练与推理、应用开发与部署等多个方面，为构建和运行复杂的AI大模型应用提供了全面的技术支持。

2.AI大模型应用企业级开发知识体系

AI大模型应用企业级研发需掌握大模型的核心架构transformer及通用大模型架构（包括编码器-解码器结构、前馈神经网络等组件）。知识体系如下：

私有大模型开发有两个方向，即：

1.基于预训练模型进行特定任务的微调（Fine-tuning）；

2.结合检索和生成技术，提升模型的准确性和上下文理解能力（RAG）。

agent应用开发用到如下技术和工具：

1.文本开发：处理和生成自然语言文本；

2.多模态开发：整合文本、图像、音频等多种模态的数据；

3.LangChain：构建语言模型应用框架；

4.LlamaIndex：索引和查询大规模文本数据的工具；

5.Semantic Kernel：微软提供的语义内核框架；

6.AutoGen：自动化生成代码和内容的工具；

7.SprinAI：基于Spring框架的AI开发工具；

8.Prompt Engineering：设计和优化提示词以引导模型输出。

可能会用到的各向量数据库的比较：

选择合适的向量数据库取决于具体的应用场景、预算、技术栈和团队能力。例如，如果需要高性能和灵活性，可以选择 Milvus；如果希望免运维和快速部署，可以选择 Pinecone；如果已经使用 PostgreSQL，可以考虑 PGVector。

3.AI大模型应用企业落地混合架构设计

混合架构设计不仅融合了AI原生和云原生的优势，可以灵活地部署和管理应用，支持快速迭代和扩展，根据需求动态调整计算和存储资源。还为企业提供了从底层基础设施到上层应用的完整解决方案，支持多种AI大模型应用场景，帮助企业实现智能化转型。

不管什么架构，最终都会落到具体的模型去处理然后输出。

4.AI智能体执行引擎架构

在技术实现的视角看，智能体分为三层：交互层、智能决策层和系统连接层，由智能体执行引擎统一完成编排与调度。交互层和系统连接层的开发技术与传统的软件开发一致，这里不再赘述。

智能体运行引擎是AI智能体的核心骨架，可类比于编码开发中的后端框架，如SpringBoot。它负责协调各个功能模块，编排并执行流程，并确保系统的可靠性与可扩展性。一个成熟的智能体引擎不仅仅是简单的调度器，更是一个复杂的状态管理与决策系统，如下图所示。

智能体引擎的主要职责体现在以下几个方面：

任务编排与执行控制：将复杂任务分解为职责相对单一的、可执行的任务序列，并管理任务间的依赖关系与执行顺序
状态管理与上下文保持：维护人与智能体的对话历史，确保多轮交互的连贯性
资源调度与负载均衡：智能体本身是一个独立运行的数字化系统，需要确保系统的稳定性
错误处理与自我修复：提供日志机制，检测执行异常并实施故障恢复策略，提高系统健壮性

5.AI智能体ReAct架构设计模式

ReAct（即推理和行动）是一种 AI 智能体的架构设计范式。ReAct 智能体会逐步思考，并且可以在最终确定答案之前使用链式推理和工具，执行中间行动来综合运用。它在一个思考→行动→观察的循环中运行，直到它找到解决方案或最终答案为止。工作原理图如下。

6.RAG架构及AI智能体记忆系统架构设计

将聊天记录作为文本导入，然后使用RAG来“恢复长期记忆”，是让大模型具备长期记忆的一种常见方法。但这种方法通常需要额外的工程支持，而且构建RAG也存在不容忽视的时间差。其本质的固定不变的文档库，当业务场景变化并与旧的文档产生冲突时，会把错误矛盾的结果返回用户，因而这种架构具有一定的局限性。然后呢，zep AI推出了AI智能体的记忆层，使 AI 智能体能够在不影响用户聊天体验的情况下，异步地从过去的对话中提取相关上下文。如下图所示。

该架构能自动从AI 智能体的用户互动以及不断变化的业务数据中构建一个时间知识图谱。这个图谱包含了与用户和业务背景相关的实体、关系以及事实。Zep借鉴了GraphRAG，但与GraphRAG不同的是，Zep能够很好地理解信息随时间的变化。当事实发生改变或者被新的事实取代时，图谱就会更新，以反映新的状态。

该架构的核心是Graphiti引擎。Graphiti是一个开源的库，能够构建动态的、具有时间意识的知识图谱，用以表示实体之间复杂且不断变化的关系。它可以处理非结构化和结构化的数据，生成的图谱可以通过时间、全文、语义以及图算法等多种方式进行查询。Graphiti的架构如下。

第一层：Episode子图完整地存储原始对话、文本或 JSON 数据，不丢失任何信息。

第二层：Semantic Entity子图从原始数据中提取实体和关系。

第三层：Community 子图通过标签传播算法对相关实体进行聚类。

这个长期记忆系统采用了如下的设计机制：

A.双时间轴建模，把真实世界中的事件发生时间和接收信息的时间抽象成事件时间线和时间时间线。

B.凭借LLM驱动的边失效机制，当 Zep 系统发现新事实与现有知识图谱中的信息存在语义冲突时，将存在冲突的旧信息自动标记为失效状态。

C.采用余弦相似度搜索+BM25 全文搜索+广度优先搜索的混合搜索策略，在检索到候选结果后，用RRF和MMR 算法+基于图距离的重排序+频次权重调整进行智能重排序。********

7.Agentic RAG架构设计

Agentic RAG引入了两个新的关键部分：数据源选择（Data Source Routing）和答案检查和调整（Reflection），目的是在处理复杂的用户问题时，让结果更加稳定可靠。

Anthropic 的开源项目MCP，将会大大推动Agentic RAG的开发。

8.MCP架构设计

MCP 包含三大核心模块：MCP Hosts、MCP Clients、MCP Servers。

MCP Hosts：像Claude Desktop、Cursor这样的应用程序，它们通过MCP Client 访问数据。
MCP Clients：与 MCP Server服务器保持1:1连接的协议客户端。
MCP Servers：轻量级程序，每个AI程序都通过标准化的模型上下文协议公开特定功能。

结合 AI 大模型，以一个 Java AI应用（比如：AI Agent智能体）为例，Java MCP 架构设计如下所示。

可以看到 Java MCP 架构设计的传输层有两类：Stdio Transport、HTTP SSE，如下图所示：

MCP Server 可以以工具（Tools）的形式配置到MCP Client 中。当我们向MCP Host 发送执行指令时，MCP Host 会携带这些工具信息，一起发送给 AI 大模型。随后，AI 大模型会进行意图识别和语义分析，并调用MCP来执行具体的业务需求，处理逻辑时序图如下图所示：

上图大致的处理逻辑，总结如下6步：

1.读取配置文件，运行所有MCP Server，获取可用的 Tools；

2.用户与 LLM 对话（附带所有 Tools 名称描述，参数定义）；

3.LLM 识别到要执行某个Tool，返回名称和参数；

4.找到对应 MCP Server 的 Tool，调用执行，返回结果；

5.把工具执行结果提交给 LLM；

6.LLM 返回分析结果给用户。

9.基于MCP实现AI应用架构设计新范式

AI 大模型在商业领域的应用正成为推动创新和效率提升的核心力量。其关键在于多个AI Agent 的协作，这些 AI Agent 通过分工与合作，共同承载 AI 应用所支持的业务需求。这种协作模式不仅优化了企业运营，还展现了 AI 在解决高影响力挑战中的潜力。

目前 AI Agent 与各种 Tools（业务服务接口）、Memory（存储服务接口）以及 LLMs（大语言模型）的交互主要通过 HTTP 协议实现。除了 LLMs 基本遵循 OpenAI 范式外，与其他 Tools 和 Memory 的交互需要逐一了解它们的返回格式进行解析和适配，这增加了开发的复杂性。

为了解决 MCP 在企业级应用中面临的诸多挑战，对 AI Agent 的架构进行了深度重构。通过在云原生 API 网关和注册配置中心 Nacos 中引入 MCP 增强能力，成功解决了大部分挑战点。同时，分别针对快速开发 MCP Server 和提升开源 Dify 性能的问题提供了有效解决方案。这些举措共同构建了一个基于 MCP 的 AI 应用开发新范式，推动了 AI 应用的高效开发与部署。

云原生 API 网关与 Nacos 的 MCP 增强：通过这两个产品的增强能力，解决了系统提示词的安全性、管理、调试以及 MCP Client 与 MCP Server 之间的协同关系等核心挑战。云原生 API 网关提供了强大的流量管理和安全防护功能，而 Nacos 则在服务发现和配置管理方面发挥了关键作用，确保了 MCP Server 和 LLM 之间的高效协同。我们使用云原生 API 网关作为统一的接入层，1.作为南北向流量网关，统一管理 AI Agent 的入口流量，核心功能包括转发、负载均衡、鉴权认证、安全和流控等；2.作为 AI 网关，代理各类 LLMs，向 AI Agent 屏蔽了繁杂的接入，并解决了许多生产级问题，比如：多模型切换、模型 Fallback、多 API Key 管理、安全和联网搜索等；3.作为东西向网关，统一管理来自不同源（ACK、ECS、函数计算FC、SAE、三方服务）的各类服务，供 AI Agent 使用。这样实现了普通服务和 MCP Server 的统一管理。

以下是对图中8步核心调用链路的解析：

第一步用户请求：用户向 AI 应用发起请求，请求流量首先进入流量网关（云原生 API 网关）。

第二步请求转发：云原生 API 网关维护管理不同类型的 AI Agent 的 API 或路由规则，将用户请求转发至对应的 AI Agent。

第三步获取 MCP 信息：AI Agent 在需要获取数据时，向 MCP 网关（云原生 API 网关）请求获取可用的 MCP Server 及 MCP Tool 信息。

第四步 LLM 交互（可选）：MCP 网关可能维护大量 MCP 信息，借助 LLM 缩小 MCP 范围，减少 Token 消耗，向 AI 网关（云原生 API 网关）发请求与 LLM 交互。

第五步返回 MCP 信息：MCP 网关将确定范围的 MCP Server 及 MCP Tool 信息列表返回给 AI Agent。

第六步发送至 LLM：AI Agent 将用户请求信息及从 MCP 网关获取的所有 MCP 信息通过 AI 网关发送给 LLM。

第七步 LLM 推理：LLM 经过推理，返回解决问题的一个或多个 MCP Server 和 MCP Tool 信息。

第八步调用 MCP Tool：AI Agent 拿到确定的 MCP Server 和 MCP Tool 信息后，通过 MCP 网关对该 MCP Tool 发起请求。

在实际生产环境中，步骤3至8会多次循环交互。

MCP Server的注册：

在 MCP Server 和 MCP 提示词的统一管理方面，借鉴了微服务领域中 Nacos 的服务注册发现和配置统一管理的模式，并将其应用于 MCP 范式。以下是这些概念之间的对应关系：

SpringCloud 服务/Dubbo 服务/Go 服务 → 各类 MCP Server

SpringCloud 服务/Dubbo 服务/Go 服务暴露的接口 → 各类 MCP Server 提供的 MCP Tool

SpringCloud 服务/Dubbo 服务/Go 服务暴露的接口描述 → 各类 MCP Server 提供的 MCP Tool 的描述

SpringCloud 服务/Dubbo 服务/Go 服务的配置文件 → 各类 MCP Server 的系统提示词

基于这些对应关系，在 Nacos 产品中实现了一系列增强 MCP 的能力。通过这些增强，Nacos 成为了统一管理 MCP Server 的 MCP Register（MCP Server 注册/配置中心），成为 AI 应用开发新范式的核心组件。

MCP Server统一管理：

MCP Server 注册到 Nacos 有两种方式：1.手动创建：在 Nacos 控制台手动创建，将 MCP Server 的 Endpoint 配置到 Nacos 中；2.自动注册：通过 Nacos SDK 自动将 MCP Server 注册到 Nacos，逻辑与当前 Java SpringCloud、Java Dubbo 服务类似。

在 Nacos 中对 MCP Server 进行统一管理，可以实现以下功能：

健康检查：监控 MCP Server 的健康状态。
负载均衡：合理分配流量，提高系统稳定性。
描述信息转换：支持从 JSON 到 XML 的格式转换。
上下线管控：灵活控制 MCP Server 的上线和下线。

MCP Prompt统一管理：

在 Nacos 中维护 MCP Server 的 Prompt 有两种方式：1.手动创建：手动创建 MCP Server 的配置信息，配置文件的 Data ID 命名格式为 [MCP Server name]-mcp-tools.json。在配置文件中管理 MCP Tool 的提示词信息，比如：整体作用描述、入参描述等；2.自动感知：结合治理能力，如果是Java或Go语言，可以自动感知服务的 Schema，自动生成 MCP Server 和 MCP Tool 的提示词信息。

通过Nacos 对 MCP Server 提示词进行统一管理，可以实现以下功能：

版本管理：支持版本回滚，确保系统稳定运行。
灰度管理：支持灰度发布，逐步推广新版本。
安全管理：确保提示词的安全性，防止被污染或篡改。
动态调优：支持动态调整提示词，实时生效，提高系统灵活性。

解决 MCP Client 与 MCP Server 之间协同关系：

MCP Client 与 LLM 以及 MCP Client 与 MCP Server 之间的协同关系，本质上是服务提供方与服务消费方之间的关系。这涉及到两个核心点：代理协作和流量管控。在传统的开发范式中，这些功能通常由网关来负责。因此，我们在云原生 API 网关中增强了 LLM 代理和 MCP Server 代理的能力，使其具备了流量网关、AI 网关（LLM 代理）和 MCP 网关的功能。这使得云原生 API 网关成为 AI 应用开发新范式的核心组件。

在企业的整体系统架构中，通过使用云原生 API 网关，可以实现流量网关、API 网关、微服务网关、AI 网关和 MCP 网关的功能。这不仅在代理和流量管控层面实现了传统业务和 AI 业务的统一，还通过结合 AI 应用开发的新范式，平滑地将 AI 业务与传统业务相结合。这种整合方式极大地简化了企业的技术栈，提高了系统的灵活性和可维护性，同时也降低了开发和运维的复杂性。

10.A2A架构

MCP VS A2A:

MCP：单体智能体通过工具调用扩展能力，垂直扩展方式
A2A：多智能体通过对等通信协作，水平扩展方式

MCP的实现：

class MCPAgent:
def __init__(self):
self.tools = {}
self.context = Context()
def execute_tool(self, tool_name: str, params: Dict):
if tool_name in self.tools:
return self.tools[tool_name].execute(params, self.context)

A2A的实现：

class A2AAgent:
def __init__(self, agent_id: str):
self.agent_id = agent_id
self.capabilities = set()
self.peers = {}
async def collaborate(self, task: Task):
if task.requires_capability not in self.capabilities:
peer = self.find_capable_peer(task.requires_capability)
return await peer.handle_task(task)
return await self.process_task(task)

MCP+A2A:

MCP 层：保持单体智能体的工具调用和上下文管理能力
A2A 层：提供多智能体间的通信和协作能力
MCP+A2A架构支持复杂任务的分解与协同处理

11.Function Call的架构及工作流程

工作流程：

定义被Function Call调用的Tools。
用户输入时， LLM根据输入匹配Tools的定义，决定执行哪个Tool。调用的时候根据用户输入信息动态生成参数
Tool可以调用外部API, 比如天气查询；或者读取本机文件（例如企业黑话汇总文件)
LLM根据Tool调用结果，直接生成回复，或者可以根据返回结果决定是否要调用其他Tool.

从此图可以看出，Tool的定义移到Application外面了。具体来说，现在由原来提供API的服务提供商来定义Tools, 并封装成一个MCP Server。如此一来应用开发者只要在原来的Application中实现MCP Client，根据LLM的指示调用对应的MCP Server就行了。原来的Application现在也叫MCP Host了。

12.附MCP简化版架构图

13.附AI大模型技能知识地图

读者福利：倘若大家对大模型感兴趣，那么这套大模型学习资料一定对你有用。

针对0基础小白：

如果你是零基础小白，快速入门大模型是可行的。
大模型学习流程较短，学习内容全面，需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一，跟着老师的思路，由浅入深，从理论到实操，其实大模型并不难。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla