一文搞懂 LLM 的 Transformer！看完能和别人吹一年

WAoVGz8ox

14人浏览 · 2026-07-02 18:02:33

WAoVGz8ox · 2026-07-02 18:02:33 发布

如果你想对当下 AI LLM(大语言模型) 的工作原理有所了解，揭开 ChatGPT、DeepSeek 背后的秘密，那一定要认识一下本文的主角 Transformer。

当提起 Transformer 这个话题时，仿佛人人都可以讲些相关名词出来，什么自注意力机制啊、encoder、decoder什么的，但若深入追问细节，却很少有人能真正地说清楚。

它最初来自一篇被称为“AI 大航海时代起点”的论文：

Attention is All You Need

这篇论文首次提出的 Transformer 架构，已经成为当下所有大模型的基础。

今天我们就从这篇最初的论文出发，真正理解下 Transformer 究竟是何方神圣。

本文不讨论公式，只解读图表，旨在让更多读者看完就能通俗地、成体系地给身边其他人讲清楚 Transformer 工作原理，从而真正理解它究竟为什么如此火爆。

首先，先引用这篇论文中的关于 Transformer 这个模型的整体架构图：

上来直接就看架构图是不是有些晕？

没关系，下面我们就来一步步通俗理解下这张架构图的深层含义。

图的左边一侧Input（输入），整体代表Encoder；右边一侧Output（输出），整体代表Decoder。

01｜输入是怎么被 Transformer“看懂”的？

整个输入流程你只需要先记住下面的关键流程：

词 → 向量 → 加位置 → Q/K/V → 注意力 → FFN → 输出

然后我们来一点一点看。

① Input Embedding：把词变成数字向量

模型不认识“我”、“你”、“猫”这些词，只能接受数字。

所以，需要把每个词转换成一个向量，也就是一组数字，例如：

我 → [0.12, -0.88, 0.43, ...]

这里简化了精度方便阅读，向量化这一步非常基础，但也是理解后面一切的起点。

② Positional Encoding：给模型装上“位置感”

Transformer 没有像传统 RNN 那样按顺序逐词处理输入，因此模型本身无法“天然”感知词的先后关系。

所以需要额外告诉模型：

“这是第 1 个词，这是第 2 个词……”

论文使用了 sin + cos 函数计算的位置编码方式，让每个词清楚自己的“位置”。

sin/cos 位置编码乍一看有点数学味，但对模型来说是非常简单高效的。

它像给每个位置贴上一段独一无二的“节奏标签”，让 Transformer 能分辨词的“位置”，同时又不需要多余的训练成本。

③ Q / K / V：Self-Attention 的灵魂

这是最让人拍案叫绝的设计之一。

句子中的每个词都会生成 3 个向量：

Q（Query）我想找什么？
K（Key）我是谁？我有什么特征？
V（Value）我的实际含义是什么？

它们不是概念，而是实实在在的矩阵乘法结果。

接下来，句子里的每个词都会：

拿着自己的 Q 到其他词的 K 那里去“打分”，问：
“你跟我有多相关？”

打分越高，就越关注这个词。

最后对 V 进行加权求和，得到“新含义”。

这就是单一的 Self-Attention。

02｜为什么需要 Multi-Head Attention？

有了单一的 Self-Attention，为啥又需要 Multi-Head Attention 呢？

因为我们需要从多个角度来理解自然语言。

注意力头的数量是一个超参（Hyperparameter），每个注意力头可以关注不同的视角，例如：

有些头专注于主谓关系
有些头捕捉代词指代
有些头看句子情感
有些头看名词短语边界
有些头看长距离依赖
有些头捕捉句法树结构
...

Transformer 不是只看一个角度，论文中的例子是并行开 8 个注意力头。

实际可以开12 个、48 个甚至更多的注意力头，从更多视角扫描句子。

下图是论文最后给出的一个简单示例，描述了针对同一段文字，两个不同的注意力头所展现出的各自关系，可以看到确实存在明显区别：

这就是 Multi-Head Attention 的直观体现。

03｜残差连接 + LayerNorm：让训练更稳定

Self-Attention 只是“加工”了一遍词向量，但我们肯定还不能丢掉原始信息。

于是：

原始输入 + 注意力结果 → 做 LayerNorm 归一化（对应架构图中 Add & Norm）

这个残差结构让训练稳定得多，也能堆更多层。

04｜Feed Forward 网络（FFN）：进一步加工语义

Attention层负责广撒网，把相关信息搜集到一起；

FFN则负责深加工，对这个信息进行更复杂、更深度的非线性变换。

又晕了？其实通俗来讲就是：Attention 负责找关系，FFN 负责提升表达力。

论文中描述FFN的关键内容参考如下：

简单理解它就是一个非常朴素的两层全连接网络：

Linear → ReLU → Linear

FFN 的结果是：让每个 token 得到更丰富、更抽象的特征表达，这样模型才能表达更复杂的模式，而不仅仅是做简单的线性组合。

05｜重复 N 次：论文是 6 层，可以加更多

论文里 Encoder Nx 这里是堆了 6 层。

但这其实也是一个超参（Hyperparameter）。

后来的 BERT、GPT、Llama 都堆到了几十层甚至上百层。

一般来讲，层数越多、模型越大、理解力越强。

这其实也是模型训练堆GPU能“大力出奇迹”的理论基础。

06｜Decoder 如何像人一样“输出”内容？

Decoder是模型的“写作器”，其工作严格遵循架构图右侧流程，核心是 “从左到右，逐词生成”。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

MCP：从概念到实战

MCP（Model Context Protocol）是Anthropic提出的AI交互开放标准协议，被称为"AI时代的USB-C端口"。它通过标准化协议解决AI Agent与外部工具、数据源和服务的集成问题，将原本复杂的M×N适配问题简化为M+N问题。MCP采用客户端-服务器架构，包含Host、Client、Server和传输层四个核心组件，支持stdio和Streamable HTTP两种通信