你的AI助手还在“一本正经地胡说八道”？用LangChain+RAG技术，喂给它企业专属知识库！

你是不是也曾想过，让公司的客服系统变得更智能，能快速理解客户问题，还能自动从企业文档中找出精准答案？今天，我们就来手把手教你如何用LangChain和RAG技术，从零搭建一个真正懂你业务的智能客服系统！不用担心复杂的技术概念，我会用最直白的方式带你一步步实现。

Android老皮

420人浏览 · 2025-11-28 13:51:35

Android老皮 · 2025-11-28 13:51:35 发布

一、什么是RAG？为什么你的企业需要它？

RAG的全称是检索增强生成（Retrieval-Augmented Generation），是一种让大模型变得更“懂”你业务数据的技术。

简单来说，它的工作原理是这样的：

平常我们问大模型问题，它只能用自己的知识来回答。但企业往往有自己的文档、产品手册、客服QA等资料，希望AI能基于这些内容来回复。

RAG就是帮你实现这个目标的——它先把你的文档转换成向量数据存起来，当用户提问时，先从向量库中找出最相关的文档片段，再让大模型基于这些片段生成答案。

举个例子，如果你问“你们产品的保修政策是什么？”，RAG会先在你的企业文档中查找保修相关的条款，然后把找到的内容和大模型的知识结合，给出一个既准确又符合你企业实际情况的回答。

二、搭建准备：认识LangChain和向量数据库

我们要使用LangChain这个强大的框架，它帮我们简化了与大模型交互的复杂度。同时还需要一个向量数据库，这里我们选择Chroma，一个轻量级且易用的向量存储方案。

首先安装必要的库：

pip install langchain-chroma

LangChain用一个统一的Document类来表示所有类型的文档，无论是PDF、Word还是Excel。

每个Document都包含两个主要部分：

page_content：文档的文本内容
metadata：元信息，比如文档来源、创建时间等

为了演示，我们先模拟一些简单的文档数据：

documents = [
Document(page_content="猫是可爱的动物", metadata={"source": "animal_doc1"}),
Document(page_content="狗是人类最好的朋友", metadata={"source": "animal_doc2"}),
# 更多文档...
]

在实际应用中，你会用真实的企业文档替换这些模拟数据。

三、文档向量化：将文字转换成数学表示

要让计算机理解文本之间的相似性，我们需要将文字转换成向量（一组数字）。这个过程叫做“嵌入”（embedding）。

最初我们尝试使用OpenAI的嵌入模型，但发现两个问题：一是需要翻墙，二是需要付费。

于是我们转向国产优秀替代——阿里云的文本向量模型。

在阿里云百炼模型平台，我们选择“通用文本向量V3”模型（text-embedding-v3），这个模型专门为中文文本优化，效果很好。

配置代码如下：

from langchain_community.embeddings import DashScopeEmbeddings # 引入阿里嵌入式模型
embeddings = DashScopeEmbeddings(
dashscope_api_key="你的阿里云API密钥",  # 请在阿里云控制台获取
model="text-embedding-v3"
)

注意这里参数名是dashscope_api_key而不是api_key，这是新手常踩的坑！

四、构建向量数据库：存储和检索知识

有了嵌入模型，我们就可以创建向量数据库了：

from langchain.vectorstores import Chroma
vector_store = Chroma.from_documents(
documents=documents,  # 你的文档列表
embedding=embeddings   # 上面配置的嵌入模型
)

这个过程就像是你把公司所有文档都整理到一个超智能的图书馆，每个文档都被编码成一个独特的“书签”，便于后续快速查找。

五、相似度搜索：找到最相关的内容

现在我们来试试这个向量数据库的检索能力：

# 搜索与"狸花猫"相关的内容
results = vector_store.similarity_search_with_score("狸花猫") # 按照分数进行相似度的搜索
for result in results:
print(f"内容: {result[0].page_content}, 相似度分数: {result[1]}")

你会看到类似这样的输出：

内容: 猫是可爱的动物, 相似度分数: 0.8内容: 狗是人类最好的朋友, 相似度分数: 1.16

分数越低表示相似度越高。

有趣的是，即使我们查询“海豚”（这个词语在我们的示例文档中根本没有出现），系统也能找出语义上最接近的“金鱼”，因为它们都是水生动物。

这种语义理解能力正是向量搜索的强大之处——它不是简单匹配关键词，而是理解词语背后的含义。

六、使用检索器：精细化控制搜索结果

有时候我们不需要返回太多结果，只需要最相关的一两个。这时可以用检索器（Retriever）：

retriever = vector_store.as_retriever(search_kwargs={"k": 1})
results = retriever.invoke("狸花猫")

这里的k参数控制返回结果的数量，一般建议设置在3-5个之间，既能保证覆盖度，又不会让大模型处理过多无关信息。

检索器还支持批量查询，可以一次性处理多个问题，这在真实客服场景中很实用。

retriever = RunnableLambda(vector_store.as_retriever.band(key=1)
results = retriever.batch(["狸花猫","海豚"])

七、整体工作流程回顾

现在让我们梳理一下完整的RAG流程：

准备企业文档（PDF/Word/Excel等）
将文档分块处理（对于长文档特别重要）
用嵌入模型将文本块转换为向量
将向量存储到Chroma数据库中
用户提问时，先在向量库中检索相关文档
将检索结果和原始问题组合成提示词
发送给大模型生成最终答案

是不是很像一个聪明的图书馆管理员？

先到书架上找到相关的参考书（检索），然后结合自己的知识给出全面解答（生成）。

下一步做什么？

现在你已经掌握了RAG的核心技能，接下来可以：

用真实企业文档替换我们的示例数据
学习如何处理长文档（分块技巧）
将检索结果与大模型结合完成问答流程
优化提示词工程，让回答更准确
部署为真正的客服系统

记住，每个企业的需求都不同，你可能需要调整参数和流程来适应自己的业务场景。多实验、多调整，你会发现RAG技术的强大威力！

搭建智能客服系统不再是大公司的专利，现在你也可以用自己的数据打造专属AI助手。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla