应用层技术栈(2025–2026 推荐组合)

核心组件

模块 推荐工具 核心职责
RAG 知识检索 LlamaIndex 处理文档索引、向量检索、混合搜索,为 Agent 提供精准上下文
MCP 工具封装 FastMCP 通过 @mcp.tool 装饰器,将任意函数/API 一行代码转为标准工具
流程编排 / Agent 大脑 LangGraph 基于图的智能工作流,天然支持循环、条件分支、人机协同
业务员聊天界面 Chainlit Python 原生,零配置生成生产级聊天 UI,支持文件上传、对话历史

一句话架构(修正版)

LlamaIndex 做检索,FastMCP 造工具,LangGraph 编排大脑,Chainlit 做界面 —— 四个库在同一后端进程中直接调用,无需 REST API 串联

⚠️ 重要提醒

  • Chainlit 原团队已于 2025 年 5 月暂停积极开发,但项目稳定可用;备选方案:Gradio + ChatInterface、Streamlit + 自定义组件。

  • LangGraph v1.0 已于 2025 年 10 月发布,生产就绪,建议直接使用。


二、模型优化技术(从压缩到训练)

1. 量化(Quantization)—— 最快瘦身

方案 适用场景 推荐工具
AWQ / GPTQ GPU 推理,4-bit 精度 vLLM, TGI
GGUF CPU / 边缘端推理 Ollama, llama.cpp

2. 剪枝(Pruning)—— 移除冗余权重

  • 核心方法:SparseGPT(一次剪枝百亿参数)

  • 工具支持:PyTorch 原生剪枝 API、Intel Neural Compressor

3. 蒸馏(Distillation)—— 大教小

  • 代表技术:MiniLLM(反向 KL 散度)、BitNet(1.58-bit 极致压缩)

  • 实现框架:Hugging Face Trainer + 自定义蒸馏损失

4. 预训练(Pre-training)—— 从零造基座

  • 现状:MoE(混合专家)为主流,如 DeepSeek-R1

  • 分布式框架:DeepSpeed, Megatron-LM

5. 微调(Fine-tuning)—— 领域专家

方法 显存占用 推荐框架
全量微调 极高 DeepSpeed ZeRO-3
QLoRA(推荐) 极低(4-bit 基座 + 少量参数) LLaMA-Factory, PEFT + bitsandbytes

选型决策树(快速参考)

  • 追求极致精度 → 全量微调(需 A100/H100 集群)

  • 显存受限 / 快速落地 → QLoRA(消费级 GPU 可跑 7B~13B)

  • 推理太慢 → AWQ/GPTQ 4-bit 量化

  • 部署到 CPU / 移动端 → GGUF 或 蒸馏至小模型

  • 极端压缩(内存<1GB) → 剪枝 + 1-bit 量化组合


三、总体建议

  • 若你从零搭建一个业务内部用的 AI 助手:直接采用第 1 部分的“LlamaIndex + FastMCP + LangGraph + Chainlit”组合,并用 QLoRA 微调一个 7B~13B 模型做 Agent 大脑。

  • 若你需要把模型嵌入手机/嵌入式设备:优先考虑 GGUF 量化 + 蒸馏

  • 若你手上有千亿参数模型需要长期维护:建议建立“预训练 → 指令微调 → RLHF”全流程,并定期做剪枝+量化。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐