大语言模型学习宝典：一文读懂从语言模型到RAG的完整指南（建议收藏）

进击的码农！

1116人浏览 · 2025-10-05 13:55:31

进击的码农！ · 2025-10-05 13:55:31 发布

简介

本文介绍了大语言模型的基础概念，包括语言模型的演变历程（从基于规则到神经网络），大语言模型的三大核心模块（输入编码、特征解码、输出生成），以及Token和词向量的基本原理。文章还详细解释了RAG技术的工作流程，包括知识库构建、查询构建和检索结果重排，帮助读者全面理解大语言模型的工作机制。

如今，大语言模型早就悄悄走进了我们的生活。如果你想简单明了地弄清楚大语言模型到底是怎么回事，那这篇文章就正好能帮到你。

不用懂复杂的技术，就能把大语言模型里常见的那些概念搞明白。

一、语言模型

语言是一套复杂的符号系统。语言符号通常在音韵、词法、句法的约束下构成，并承载不同的语义。

语言符号具有不确定性。同样的语义可以由不同的音韵、词法、句法构成的符号来表达；同样的音韵、词法、句法构成的符号也可以在不同的语境下表达不同的语义。

因此，语言是概率的。

语言模型通过对语料库（Corpus）中的语料进行统计或学习来获得预测语言符号概率的能力。

语言模型是 让机器理解人类的语言文字，从而处理一系列自然语言处理任务。

基于规则的语言模型是用有限的、严格的语言规则，来描述无限的语言现象。

我们从小学习英语的时候会先学习英语语法，英语语法就是对英语这门语言总结的规则。

基于统计的语言模型通过直接统计语言符号在语料库中出现的频率来预测语言符号的概率。

基于神经网络的语言模型不再通过显性的计算公式对语言符号的概率进行计算，而是利用语料库中的样本对神经网络模型进行训练。

让模型根据“前面的内容”预测“下一个词”，学习语言的顺序逻辑（只能看过去，不能看未来）。

通过训练，模型能从文本中“偷偷学”到语法、语义、逻辑甚至常识，最终具备生成语言的能力。

二、大语言模型

大语言模型 = 海量文本数据 + 深度学习架构 + 概率化语言生成

大语言模型的基本结构，分为输入编码、特征解码和输出生成三个模块。

输入编码模块，会先根据词表对文本进行分词，然后通过词嵌入矩阵，将每一个词变成固定长度的数字串（向量），这个向量可以代表词的语义。

我们现在有个单个词的语义，接下来需要去理解词语组成的句子的语义，而特征解码模块就可以把每个词语的向量组合起来，变成一个句子向量。简单可以理解为对词向量做一个加权平均。

有了对输入文本的语义向量之后，就可以去生成输入文本后面出现词语的概率

从概率的角度讲，输出词语可能是词表中的任何一个词，所以会输出词表中每一个词的概率，后面再根据策略在里面找一条概率比较大的路径，这个路径其实就是最终输出的文本。

Token

文本进入大模型，首先会根据词表来进行分词，词表是基于模型训练的语料库来构建的，里面包含模型认识的所有词。我们把词表中的每一个词我们称之为Token。

Token 是大语言模型理解文本的最小语义积木，分词是 “拆积木” 的过程，词表是模型的 “积木字典”。

在常用的开源模型中，不同模型采用了不同的语料库，通过语料库生成的词表也就不一样，有些词表认为“帮助企业”是一个词，有些词表认为“帮助企业”是两个词，可以分为“帮助”和“企业”。

像DeepSeek、Qwen这些中文开源大语言模型，基于中文的语料库，对中文的分词进行了优化。平均1个Token能代表1.3个中文字，相当于每个字只用0.7个Token就行。平时常用的词语、成语，甚至直接用1个Token就能表示。

但像GPT-4、LLaMA这些主要基于英文语料库训练的模型，对中文的支持度较弱，分词效率不高。

要是单个Token能包含更多意思，那模型在理解和表达同样的内容时，需要的Token就更少，处理速度自然就快多了。

词向量

在大模型的输入编码阶段，我们有个词嵌入矩阵把对应的Token转换成数字向量，词嵌入矩阵里面每个词对应的向量就是词向量。

词向量让计算机能通过数字 “看懂” 词的含义和关系，它解决了计算机 “看不懂文字” 的问题。

词向量能捕捉语义关系，甚至能通过做 “向量加减法”来对语义进行计算，比如：

国王 - 男生 + 女生 ≈ 王后

语义上相似的数据，在向量空间中的位置也相近

词向量能表示语义，向量之间的相似度即可表示语义之间的相似度

词向量维度越高，表示描述这个词的特征越多，对这个词的语义理解会越准确

Embedding模型

把文本转化成对应的文本向量，这个向量可以表示出文本的语义，基于这个向量可以计算出不同文本之间的相似度，在知识检索中用处很大。

Embedding模型可以理解为是大模型的输入编码和特征解码的部分。

创意程度

Temperature 通过调整模型预测的概率分布的平滑程度来控制随机性。

Temperature < 1，e.g. 0.5

低温度会使【高概率词】概率进一步【增大】，【低概率词】概率【降低】：概率分布更加尖锐，增加高概率词被选中的可能性，减少低概率词的影响。

Temperature > 1，e.g. 1.5

高温度会使【低概率词】的概率【增加】，【高概率词】的概率【降低】：概率分布更加平滑，增加低概率词被选中的可能性，提升生成内容的多样性和创造性。

三、RAG，检索增强生成

检索增强生成（RAG）就是给AI加了个“查资料”的技能，让它回答问题更靠谱。

我们平时用的DeepSeek R1这类生成式AI，就像一个“记忆力超强的学霸”，但它的知识是“固定”的，都是训练时学的以前的知识（比如截止到2025年1月的内容）。

在不开启联网搜索的情况下，如果问它最新发生的事（比如2025年某政策），或者某个领域的冷门细节（比如你们公司内部的文档规定），它要么答不上来，要么可能“瞎编”（因为它会根据已有知识“猜”）。

知识检索的具体流程

知识库构建

分为数据收集预处理和知识库增强

数据收集及预处理

要做一个知识库，首先得有“原材料”，这就需要先收集数据，再对数据做前期处理。

对文本进行分段，就是把长文章分成短一点的片段

这么做有两个好处：

一是大语言模型一次能处理的文字长度有限，拆分后就不会超出它的处理范围。

二是长文章里可能有不少不相关的内容，拆分后能减少互相干扰。

知识库增强

一个好用的知识库能够根据查询精准匹配出和查询相关的文本片段，要提升知识库的查询匹配程度，可以从向量模型、查询生成、摘要生成，这三方面入手：

向量模型

把一段文本转化成数字向量，该向量能够表示语义，选择不同的向量模型，对语义的理解也会不太一样

查询生成

查询生成指的是利用大语言模型生成与文档内容紧密相关的伪查询。这些伪查询从查询的角度来表达文档的语义，可以作为相关文档的“键”，供检索时与用户查询进行匹配。

比如有篇文档讲RAG的工作原理，生成“RAG的原理是什么？”这样的问题，既准确体现了文档主题，又能让检索工具更精准地找到和用户提问相关的内容。

摘要生成

就是用大模型给文档内容总结摘要。这些摘要里包含了文档的关键信息，能帮人快速明白文档讲了什么。

查询构建

提高用户的查询的准确度。

查询增强

知识库能讲的知识是固定的，但大家提问的方式却千差万别。有时候我们问问题的说法、角度，和知识库里面写的不一样，就可能找不到合适的答案，影响找答案的效果。

这时候就需要查询增强——通过优化我们的问题，让它更贴合知识库，帮我们更准地找到答案。

下面从“语义增强”和“内容增强”两方面，简单说说怎么优化问题。

查询语义增强：换种方式问问题

查询语义增强就是通过换说法、拆问题，让问题的意思更丰富，这样找答案时能更准、更全面。主要有两种方法：

同义改写：同一个问题换几种问法

有时候我们只按一种方式提问，可能刚好和知识库的说法对不上。这时候可以把问题换成意思相同但说法不同的句子，覆盖更多可能的答案。

比如问 RAG的原理是什么？可以换成：
```
  RAG的工作机制是怎样的？

  RAG的核心技术是什么？

  检索增强生成的原理是什么？
```
把这些换过说法的问题分别去查，然后把查到的结果合并起来，去掉重复的，就能得到更多相关的内容。
多视角分解：复杂问题拆成小问题

如果问题比较复杂，一下子不好回答，可以把它拆成几个小问题，从不同角度提问。每个小问题查出来的答案角度不同，合起来就能得到更全面的回答。

比如问 RAG的原理是什么？，可以拆成：

RAG的检索模块具体负责什么任务？

RAG的完整工作流程是怎样的？

每个小问题都能查到不同的答案，这些答案从不同角度讲威胁，把它们合起来，就能得到更全面的回答了。

查询内容增强：给问题加些背景知识

内容增强就是给问题补充一些相关的背景信息，让问题更丰满，帮我们找到更合适的答案。简单说，就是在查答案前，先了解一些和问题相关的基础内容。

比如问“RAG的原理是什么？”时，可以先让工具生成一段背景：

“RAG通过从外部知识库中检索相关信息，并将这些信息作为上下文输入到大型语言模型（LLM），以提升模型在知识密集型任务中的表现，如问答、文本摘要和内容生成。”

有了这段背景知识，再去查“RAG的原理是什么”，就能更准地找到相关答案了。

检索结果重排

检索器可能检索到与查询相关性不高的文档。这些文档如果直接输入给大语言模型，可能会引发生成质量的下降。

为此，在将其输入给大语言模型之前，我们还需要对其进行进一步的精选。

精选的主要途径是对检索到的文档进行重新排序，简称重排，然后从中选择出排序靠前的文档。

以上就是我对大语言模型概念的一些理解，希望对你们有所帮助。
能更准地找到相关答案了。

AI大模型学习和面试资源

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

【小白也能轻松用】个人办公AI搭建，OpenClaw零基础零代码快速部署（含最新安装包）

智能体开发者社区

别再手动编译了，用 Docker 在 Instinct GPU 上三分钟跑通 vLLM

本文详解如何利用 Docker 在 AMD Instinct GPU 上三分钟快速部署 vLLM。借助 ROCm 7.x 官方预构建镜像，开发者可彻底告别手动编译地狱，轻松实现 Llama 3.1 等模型的高效推理。文章涵盖 BF16/FP8 精度配置及性能实测，助您大幅降低环境配置成本，加速大模型服务上线。