说人话之什么是 RAG（检索增强生成）？

摘要：RAG（检索增强生成）技术解决大模型三大痛点 RAG技术通过动态检索外部知识增强大模型能力，主要解决三大问题：1）知识过时——实时检索最新信息；2）生成幻觉——提供事实依据减少虚构；3）潜在偏见——引入多样化数据源。其工作流程分为数据准备（分块、向量化、存储）和问答处理（查询向量化、相似检索、生成应答）两阶段。RAG无需修改模型参数，通过外挂知识库实现动态知识更新，显著提升回答的时效性和准确

大耳朵爱学习

1109人浏览 · 2025-07-11 11:05:31

大耳朵爱学习 · 2025-07-11 11:05:31 发布

说人话之什么是 RAG（检索增强生成）？

如今的大模型，

上知天文、下晓地理，

文能写诗、武能编程，

俨然科技圈的超级偶像！

可谁能想到，

人前呼风唤雨的技术新贵，

却面临着潜在的"塌房"危机！

🚨 大模型的“塌房危机”

风靡全球的大模型面临着三大问题：过时、幻觉和偏见！

**过时：**大模型的认知边界受限于预训练数据的时间，而训练数据往往存在一定的滞后性。此外，模型训练复杂、成本高昂，难以频繁更新，知识库自然也跟不上外界变化。

**幻觉：**当大模型遇到知识盲区时，会启动一种危险的联想补全机制，基于局部信息拼接出看似合理、实则虚构的内容，这便是所谓的 “模型幻觉”。这种“煞有介事”的错误往往比直接承认未知更具误导性。

**偏见：**在三大问题中，偏见问题最为隐蔽，也最难根除。这些偏见并非AI主动产生，根源在于训练数据本身隐含的各类社会偏见，其在模型学习过程中会被持续放大。

💡科技“顶流”如何自救？

这三大危机就像随时引爆的“黑料”，迫使大模型不得不琢磨自救对策——RAG（Retrieval-Augmented Generation，检索增强生成）。

RAG的核心思想是在生成回答时不完全依赖模型中的静态知识，而是通过检索器动态获取外部知识片段，再将其作为上下文输入大模型，从而增强其生成能力。它无需修改模型参数，而是以“外挂”的形式拓宽大模型的知识边界。

知识保鲜期危机？

RAG核心机制在于动态知识注入机制，实时连接外部数据库/API接口等，在生成回答前主动检索最新数据。当传统模型的知识因训练数据滞后而“过期”时，RAG能通过检索机制自动补充最新信息，确保输出内容的时效性和准确性。

爱胡说八道？

RAG 通过检索外部知识，对比多个来源数据，为答案提供事实参考依据，降低模型捏造内容的概率，不过RAG 无法完全杜绝“幻觉”问题。

戴有色眼镜？

RAG通过更广泛、更多样化的外部信息提供更全面的视角，从而减少模型对训练数据中偏见信息的依赖。然而，如果外部信息源存在局限性，偏见问题可能依然存在。要有效应对模型偏见，还需要从训练数据质量和模型设计入手。

🤔RAG的核心流程

顾名思义，RAG（检索增强生成）通过三阶段协同机制实现动态知识整合，其核心流程如下：

1.检索阶段： 用户输入一个问题或指令（Query），系统中的检索器根据这个输入从外部数据库中检索相关资料（可能是互联网上的公开文档，也可能是用户数据库中的个人数据）。这一阶段的核心目标是从异构数据源中高效定位相关信息片段，为后续生成提供基础。

2. 增强阶段： 将检索到的相关信息有效地整合到用户的原始查询中，形成一个新的、信息更丰富的“提示”（Prompt），提供给生成模型。该阶段的核心目标是构建语义增强的上下文输入。

3. 生成阶段： 大模型基于“提示”生成一个自然、准确的响应。该阶段的核心目标是基于增强后的上下文生成精准响应。

💼RAG具体是如何工作的？

一个完整的RAG工作流程包括两大部分：准备部分（发生在提问前）和回答部分（发生在提问后）。

准备部分（提问前）： 外部资料分块➡️将拆分好的文本块通过Embedding模型转换成向量➡️将这些向量存储到向量数据库中。

回答部分（提问后）： 用户查询➡️将用户的问题转换成向量➡️从向量库中检索出与用户问题相关的文本块➡️将检索到的文本块重新排序，筛选出相关程度高的块➡️将筛选出来的块与用户的原始查询一起发给LLM➡️LLM生成最终回答。

准备部分（数据提取流程）

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

1.分块

第一步是将这些外部资料拆分成chunk（块），比如一份 500 页的产品手册，RAG 会按规则将其拆成小块。分块时会保留上下文连贯性，确保每个块都是完整的 “知识碎片”。

为什么必须分块？

✨输入尺寸限制，模型也有“进食”上限：如果不分块，直接喂一本数万字的文档，模型会 “噎住”（超出输入限制），可能只处理的部分内容，后面的知识全漏了。

✨检索精度需求，避免大海捞针：不分块的话，就像在一整本书里翻找特定段落，没有明确的 “页码” 定位，想找某段内容难上加难。

✨理解效率提升，小块知识更好消化：每个块只包含一个核心知识点，模型处理时不会被其他无关内容干扰。

下面是几个主流的分块策略：

固定大小分块（Fixed-size chunking）是一种将文本划分为均匀长度的段的策略，例如按预定义的字数或token数划分，文档可能会被拆分成每段 200 个单词的块。
基于语义的分块（Semantic chunking）是一种按照含义（主题转换、逻辑转折等）对文本进行分块的策略。通过计算相邻文本单元的语义相似度变化，识别“语义断点”。
递归分块（Recursive chunking）是根据固有分隔符（如段落、章节等）进行分块。如果每个块的大小超出了预定义的大小，则将其拆分成更小的子块，直到每个子块满足预设的长度或语义完整性要求。
基于文档结构的分块（Document structure-based chunking）利用文档的天然格式或逻辑结构进行分块，核心思想是将文档的物理结构（如标题、章节）或逻辑结构（如操作流程中的步骤）作为分块边界，确保拆分后的子块保留完整的语义单元。
基于LLM的分块（LLM-based chunking）是指利用LLM的语义理解能力来动态确定文本分块边界，通过模型对文本语义的深层理解实现更精准的分块。

除此之外还有很多其他的切分方式，但最终都需要把文本切分成多份小块。

2.文本块向量化

在RAG流程里，把长文本切成小块后，这些文本块对机器来说还是乱码，这时候需要将其转换为机器可理解的格式。

向量化（Embedding）就是将文本或数据转换为向量的过程。模型经过训练后，这些向量可以捕捉到文本的语义信息，使得相似的文本在向量空间中距离较近，这样检索系统可以基于这些向量进行高效的相似度搜索。

*关于向量化的内容可阅读《说人话之什么是Token？》

3.将向量存储在向量数据库

向量数据库是用于存储和查询向量的数据库。文本块向量化后，就会与原始内容、元数据（如文本块 ID、来源文档、创建时间等）一起被存储到向量数据库中。

假设向量是图书馆里的书，语义信息是每本书的内容，那么向量数据库就是专门为其设计的智能图书馆。

传统数据库像老式图书馆，只能按书名（关键词）找书；
向量数据库像智能图书馆，能根据书的主题（语义）分类，比如“想找养猫的书”，它会自动把涉及 “猫粮”“猫砂”的书都找出来，因为这些词在向量空间里是 “邻居”。

向量数据库充当了 RAG 应用的内存，是存储所有附加知识的地方，通过这些知识，模型可以回答用户的查询。

至此，向量数据库已创建完毕，信息也已添加。

现在，进入模型回答部分。

回答部分（检索与生成流程）

4.用户查询

接下来，用户输入一个查询，比如：“常州能打破0进球魔咒吗？”

5.将查询向量化

与准备部分中的文本块向量化步骤一样，使用相同的Embedding模型，将用户查询“常州能打破0进球魔咒吗？”转换为向量。

6.检索相似的块

将用户查询转换为向量后，系统需要在向量数据库中快速找到语义最接近的文本块。这个过程本质上是向量相似度检索，用搜索算法检索查询向量与库中所有向量的 “距离”，距离越近，语义越相似。

像KNN（K最近邻）等传统的最近邻搜索算法会遍历所有数据点，计算目标向量与库中每个向量的距离，并严格按距离排序，选取最近的 K 个样本。

但向量数据库可能存在百万级甚至上亿向量，若每次都遍历所有向量计算距离，效率极低。如何避免 “暴力比对所有向量” 的低效操作呢？

ANN（近似最近邻）算法采取“抓大放小”策略，牺牲少量精度以换取速度提升。ANN通过 “空间分区 + 快速导航” 机制，将海量向量的搜索范围 “剪枝” 到局部区域，避免全局遍历，降低搜索复杂度。

接下来，向量数据库返回与用户查询相关的文本块，为最终的生成提供基础。

7.重排序

检索阶段就像海选，捞出一堆 “可能相关” 的块，这些块还需要重排序（Re-ranking），以确保最相关、最优质的文档被优先提供给生成模型。该过程依赖编码器模型为检索到的每个块分配相关性分数。

双编码器（Bi-Encoder）和交叉编码器（Cross-Encoder）是两种主要的编码器类型。

双编码器通过独立的查询编码器和文档编码器，分别将用户查询与文档编码为向量，通过向量相似度计算获取计算其相关性，该方法效率高但仅能捕捉表层语义；交叉编码器将查询和文本块作为整体输入，通过全注意力机制捕捉深层语义交互，直接输出相关性分数。这种方法能捕捉深层语义关联，精度更高但处理速度较慢。

在 RAG 重排序中，交叉编码器通过牺牲部分效率换取语义匹配精度，成为优中选优的核心方案。

8.生成最终响应

当重排序后的高相关文本块准备就绪，LLM 将进入“知识拼图”环节，把用户问题与精选出来的文本块按“提示模板（Prompt Template）”组合，生成融合外部知识的精准回答。

“提示模板”是一个固定格式，把用户问题和精选资料按顺序排列，形成LLM能理解的输入格式。

生成最终响应是 RAG 系统的“知识变现”环节，LLM 在此扮演三重角色：

信息融合者：将碎片化知识块与问题深度整合，避免照搬资料的生硬感；
逻辑编排者：按人类认知习惯重组信息（如时间顺序、重要性排序）；
表达优化者：将专业术语转化为易懂语言，同时保留关键数据准确性。

从知识分块的 “抽丝剥茧”，到嵌入向量的 “语义编码”，再到检索重排的 “沙里淘金”，最终通过 LLM 完成知识的 “有机生成”。至此，RAG的工作流程就完成了。

真正的模型“顶流”从不依赖 “人设” 行走江湖，得有随时更新、知错就改的真本事，这才是“顶流”保证长红不衰的硬实力。

在大模型时代，我们如何有效的去学习大模型？

现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也_想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把都打包整理好，希望能够真正帮助到大家_。

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型各大场景实战案例

在这里插入图片描述

结语

【一一AGI大模型学习所有资源获取处（无偿领取）一一】
所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla