小白到高手:RAG知识库系统全解析,让AI更专业,一篇收藏够用!
RAG系统通过数据准备、数据检索和LLM生成三个核心环节把外部知识和大语言模型能力完美结合,使得用户能够收获更专业更准确的知识,从文档中获取的内容尽量避免大模型幻觉。做AI项目的时候,也要注意一定不要脱离软件工程化,上面说的内容还可以再细,比如如何处理多会话之间的数据同步与检索,知识图谱,数据清洗等RAG系统因其知识随时更新,回答检索靠谱被广泛应用于智能客服、学习助手等领域。
RAG(检索增强生成)是一种将信息检索系统与大语言模型结合的技术,通过数据准备(文档上传、分块、向量化存储)、数据检索(查询向量化、相似块检索、重排序)和LLM生成三个核心环节,使大模型基于外部专业知识生成更准确、可靠的回答,有效减少模型幻觉,是提升大模型专业性的关键技术。
一、检索增强生成(RAG)是什么?
RAG(Retrieval-Augmented Generation,检索增强生成)是一种技术架构,将传统信息检索系统与大型语言模型相结合。该技术首先从海量文档中构建知识库,并从中检索出相关信息,再将这些信息输入至大语言模型进行整合与润色,最终生成流畅自然的回答。此处所提及的模型亦可替换为多模态模型,此时生成的回答将相应体现为图像、音频等不同形式。RAG的整体架构如下图所示。通过阅读本文,您将深入理解RAG的三个核心环节——数据准备、数据检索与LLM生成,并掌握它们如何有机衔接、协同工作。

将其分为三个层次主要为:数据准备、数据检索和模型生成。
二、RAG数据准备环节
构建RAG系统的第一步,是上传私域的数据文档。该系统具备强大的多格式解析能力,可支持包括.txt、.docx、.json、.pdf、.md在内的多种主流文档类型。这些文档中蕴含的文本信息,正是所谓“知识”的来源。
值得注意的是,上传的文档并不会以原始文件形式直接存入数据库。这些知识需要经过一系列精细化的预处理,才能被结构化地存储至专门设计的知识库中。具体处理流程如下图所示,清晰展示了从原始文档到可用知识的转化过程。
2.1 文本分块

RAG系统对于知识文本的处理也是这样。上传的文档首先会被拆分成很多相同大小的chunk数据块,拆分的依据可以是按段落切分,按固定文字数切分、按句子拆分、递归拆分、正则表达式拆分等,不同的切分策略对于RAG系统的效果有很大影响。
为什么要进行分块呢?因为贪多嚼不烂!将知识分块主要有如下优点:
1、避免文档太大不好处理:有些文档可能一个就有几百页,直接让电脑分析消耗太大。
2、模型处理长度有限:我们知道模型是有输入输出上下文的,太长的文本模型一次性也处理不了。
3、查找内容更精确:如果一个文档存储成数据库中一项,表明这个文档只有一个标签,很难做到精准查找。
2.2 文本块转换嵌入向量

文本通过对应的文件读取器、文件解析器、分词器、将长文本进行切分,切分后的文本块chunk不是直接通过文字形式保存在数据库或向量库中,而是要经过生成嵌入模型 (Embedding Model) 转化为向量形式进行存储。为什么不采用关系型数据库存储呢?非要进行向量存储呢?
文本向量化有如下两个明显优势:
1、高效的相似性计算:文本向量化之后当用户输入内容时可直接通过余弦相似度、欧氏距离等相似度检索算法精准查询与用户问题相关的chunk片段。如果直接存储文本还涉及到文本字词遍历匹配等操作,效率极低。
2、语义的强相关性:生成嵌入模型是通过大量语言文本训练所得,经它转换后的向量包含了语义信息,可以使得匹配更精确。举个例子:“这部电影真精彩”、“这影片太棒了”、"这部电影真糟糕"三句话,从文本匹配角度来看"这部电影真精彩"和"这部电影真糟糕"有七个字相同,而和"这影片太棒了"只有两个字相同,但显而易见"这部电影真精彩"与"这影片太棒了"语义更相似而与"这部电影真糟糕"语义完全对立,反映为"这部电影真精彩"与"这影片太棒了"的嵌入向量余弦相似度要显著高于与"这部电影真糟糕"的相似度。
2.3 向量数据库存储

上一阶段所有的文本块都经过生成嵌入模型转化为向量,这些向量要存储到“向量数据库”中。向量数据库可以随时接收新资料,保持知识的更新。这样用户在提问时会检索到最新最相关的文本块。
良好的向量数据库不仅仅保存了文本块向量,还保留了文本块对应的原始文本以及文本块在原始文件中的位置等信息,方便用户查看。拿pgvector向量库来说,向量化之后的数据在表中的结构为:

三、RAG数据检索环节
3.1 用户输入
数据准备工作做完就到了用户提问环节,用户输入要查询的问题,经过对文本内容的切分,分成固定的chunk块,再进行向量化,同时用户可以采用语音的方式进行输入,这就会涉及到多模态的使用。
3.2 查询向量化

为了快速的在向量数据库中找到与问题相关的文本块,用户输入的问题也需要经过生成嵌入模型(这里必须使用与文本块转换相同的生成嵌入模型,因为每个嵌入模型的维度不同,生成的向量数据也不一样,比如text-embedding-ada-002 的输出维度为1536维,阿里百炼的text-embedding-v4 支持多种维度配置,包括2048、1536、1024(默认)、768、512、256、128、64维度)转化为嵌入向量,从而可以与向量库中的向量相互匹配。
3.3 向量维度
在解析几何中,我们把“既有大小又有方向的量”叫做向量,并把可随意平行移动的有向线段作为向量的几何形象。
在引进坐标系以后,这种向量就有了坐标表示式:n个有次序的实数,也就是n维向量。因此,当n≤3 时,n维向量可以把有向线段作为几何形象,但当n>3 时,n 维向量就不再有这种几何形象,只是沿用一些几何术语罢了。所以像text-embedding-v4 支持多种维度配置,包括2,048、1,536、1,024(默认)、768、512、256、128、64,这种就无法用几何形象进行表示了。
几何中,“空间”通常是作为点的集合,即构成“空间”的元素是点,这样的空间叫做点空间。我们把三维向量的全体点所组成的集合叫做三维向量空间。
3.4 检索相似块

用户问题经过Embedding Model转换后,RAG系统会根据问题的嵌入向量在向量数据中寻找“最可能”的答案匹配。常见的检索算法是“近似最邻近搜索”,该算法会挑出K个最相似的块(K是提前设置的数量,同时设置好相似性阈值),这些文本块中很可能隐藏着问题解答。检索相似块的算法非常快,充分利用了嵌入向量的特性。

3.4 结果重排序ReRank
大家如果平常使用Dify、RagFlow等知识库可能遇到过选择ReRank模型的选项,ReRank模型叫结果重排序模型。通俗来说系统为了让答案更精准可靠,会对检索出来的文本块chunk再根据相似度由高到低排个序,相当于从初筛的答案中找出更加贴切的答案来,这个过程通常会使用更厉害的模型比如交叉编码器(这就是ReRank模型设置的意义)进行打分排序,把评分较高的放在前面。当然并不是所有的RAG系统都这么做,很多公开的知识库系统也都是直接利用上一步相似度检索后的结果。因此我们可以引入重排序模型,提升RAG的检索精度。
四、LLM生成环节
RAG系统只有在最后一个环节才有大模型的参与。通过上述的操作筛选出文本块后,RAG系统会根据一个Prompt(可自行设置)将这些文本块内容嵌入Prompt模板中,然后再将这个Prompt发送给大模型得到答案。
RAG系统的整个过程可以类比为厨师炒菜,原料就是用来检索的文本块,也就是知识, 烹饪是大语言模型的语言能力,厨师是大语言模型,端上桌的自然就是美味的答案。
五、总结
RAG系统通过数据准备、数据检索和LLM生成三个核心环节把外部知识和大语言模型能力完美结合,使得用户能够收获更专业更准确的知识,从文档中获取的内容尽量避免大模型幻觉。
做AI项目的时候,也要注意一定不要脱离软件工程化,上面说的内容还可以再细,比如如何处理多会话之间的数据同步与检索,知识图谱,数据清洗等
RAG系统因其知识随时更新,回答检索靠谱被广泛应用于智能客服、学习助手等领域。作为RAG系统的使用者甚至开发者,我们只有了解RAG系统的核心原理,才能找准RAG系统提升优化的思路,让RAG系统变得更加高效可靠。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

以上资料如何领取?

为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)