如何通俗讲清 Transformer？内行人都这么回答！

程序员朱鹏

334人浏览 · 2026-06-01 20:53:26

程序员朱鹏 · 2026-06-01 20:53:26 发布

最近带着团队做AI相关项目，总有人来问我，Transformer到底是什么，它和GPT、BERT还有注意力机制之间又是什么关系。其实不是大家理解能力不够，而是一直没人用大白话把这些内容讲透彻。

今天我就好好梳理一遍，全程不用公式、不贴代码，就像平时聊天一样，把Transformer从头到尾讲清楚。

不管你是刚入行的新人，还是做产品、做业务的伙伴，看完这篇，都能真正搞懂AI底层的逻辑，不是停留在理论层面，而是能恍然大悟，彻底弄明白其中的门道。

先把时间拨回2017年之前。

那时候想要让机器读懂一句话，主流用的都是循环神经网络，也就是大家常说的RNN。我们可以把它想象成一条流水生产线，工人们依次站在传送带两侧。

当“我”“爱”“北京”“天安门”“广场”这些词汇顺着传送带送过来时，第一个工人处理完“我”，就会把相关信息传递给下一个人。第二位工人一边接收前面传来的内容，一边处理“爱”，接着再继续往后传递。

乍一看这套流程没什么问题，可一旦句子变长，弊端就彻底暴露了。

等到词汇传到最后一位工人手里，最初“我”这个词的信息，经过一轮轮传递叠加，早就变得模糊不清，几乎失去原本的含义。

在行内这叫做梯度消失，换成通俗的话讲，就是信息在传递途中不断衰减，到最后基本就消失了。

这就和我们玩的传话游戏一样，一句话经过十几个人转述，最后早就和原话天差地别。

除此之外，这套流水线必须按顺序作业，没办法跳过前面的词汇直接处理后面的内容，自然也就没法同时开展多项运算。这就导致训练一个普通的翻译模型，都得靠着GPU连续运行好几个星期。

后来工程师们也尝试过优化，陆续推出了LSTM、GRU这类改良版本，核心思路就是给RNN加上记忆开关，让模型自主选择哪些信息该保留、哪些该舍弃。

虽然情况有所好转，但本质结构的短板依旧存在，它的能力上限从一开始就被限制住了。在2017年之前，自然语言处理领域基本就是这样，能用，但处处受限，做起来十分憋屈。

转折点出现在2017年6月，谷歌八位研究员发布了一篇论文，标题是Attention Is All You Need，直译过来就是注意力就是你所需要的一切。

刚看到这个标题的时候，不少人都觉得口气太大了。不靠RNN、不用卷积结构，单单依靠注意力机制，真的能做好翻译任务吗？可仅仅过了三个月，这款模型就在翻译评测榜单里超越了当时所有同类产品。

时至今日，这篇论文的引用量已经突破17万次，算得上是AI发展史上影响力最大的论文之一。八名研究者，十五页内容，直接改写了整个AI行业的发展方向。

在这之后，行业发展一路提速，2018年出现BERT，2019年有了GPT-2，2020年GPT-3问世，2022年ChatGPT走红，2023年GPT-4亮相，一直到现在的GPT5.5、DeepSeek v4、Claude opus 4.7，当下主流的这些模型，底层架构全都来源于这篇论文提出的Transformer。

接下来正式聊聊Transformer的工作原理，在此之前，得先弄懂几个基础概念，不然后面的内容很难理解。

首先是Token。AI不会直接识别我们输入的文字，它处理的最小单位就是Token。简单来说，中文里单个汉字一般就是一个Token，英文单词有可能会被拆分，比如transformer会被拆成transform和er两部分，就连标点符号，也会被单独算作一个Token。

我们发给ChatGPT的每一句话，里面的文字和标点，都会先被拆分成一个个Token，之后才会送入模型进行处理。GPT-3的训练数据足足包含3000亿个Token，一本三百页左右的书籍，大概对应10万个Token，而你现在正在读的这篇内容，总量大约在4000个Token上下。

第二个概念是Embedding。文字拆分成Token之后，机器依旧无法识别内容，它只能够读取数字。

所以每一个Token，都会被转化成一组数字，这个转化过程就叫做Embedding，也常被称作词向量或者嵌入。

我们可以想象一个维度极多的立体空间，每一个词语在这个空间里都有专属坐标，意思相近的词语，坐标位置就挨得很近，含义相差较远的词语，坐标距离也会更远。

这里分享一个曾经让我十分惊叹的例子，早期的Word2Vec词向量模型就验证过这个规律，用代表国王的坐标减去代表男性的坐标，再加上代表女性的坐标，最后得出的结果，和代表女王的坐标高度重合。

这并不是杜撰出来的内容，是真实测试得出的结论，语言背后的逻辑，就藏在这些数字的位置关系里。GPT-3所使用的Embedding维度达到12288维，这样复杂的空间我们很难靠想象描绘出来，但机器却能在其中精准摸索出语言规律。

讲完基础概念，就到了最核心的Attention机制，这既是Transformer最大的创新点，也是论文标题Attention Is All You Need的由来。

先来看一个日常场景，“它把杯子放到桌子上，因为它太重了”，这句话里后一个“它”，指代的是杯子还是桌子？相信大家第一时间就能判断答案肯定是杯子，毕竟桌子不存在“太重”这种说法。可机器要怎么做出判断呢？

在RNN盛行的年代，机器只能按顺序逐字读取内容。等读到末尾的“它”时，前面“杯子”的信息经过多次传递，混杂了大量其他内容，机器很难把这两个词汇精准关联起来。

而Attention机制彻底改变了这种模式，当模型读到“它”这个词时，会直接检索整句话里所有词汇，逐一计算彼此的关联程度，最后判定它和“杯子”的关联度最高，就会重点参考“杯子”对应的信息。

和RNN最大的不同就是，它能实现全局关联，不管相关词汇出现在句子开头还是末尾，两者都能直接建立联系，完全不受位置远近的影响。

具体的运算逻辑也很好理解，每一个Token进入Attention机制后，都会被转化成三组向量，也就是大家常说的Q、K、V。

用大白话解释，Q代表我想要查找什么内容，也就是这个词汇想要向其他词汇获取相关信息；K代表我能提供什么内容，相当于这个词汇对外展示的标签，用来匹配各类查询；V则是我本身承载的实际信息，一旦被匹配成功，就会输出对应的内容。

我们可以用图书馆来类比，你走进图书馆，心里带着想要解答的问题，这个问题就是Q。

书架上每一本书都有专属标签，这些标签就是K。

你拿着自己的问题去对照所有书籍标签，找到匹配度最高的书仔细阅读，书中的内容就是V。

Transformer会对句子里的每一个词汇重复这套流程，让每个词都去判断自己和整句话里其他词汇的关联强弱，最后整合所有信息，形成全新的内容表达。

这也是它被叫做自注意力（Self-Attention）的原因，模型会自主梳理一句话内部各个词汇之间的联系。

只使用一组Q、K、V还远远不够。一句话里包含多层信息，有语法结构、有指代关系，还有情绪倾向，单一的注意力模块没办法同时捕捉到这么多维度的内容。

所以Transformer引入了多头注意力（Multi-Head Attention），简单说就是同时运行多套独立的注意力模块，每一个“头”专门负责抓取某一类语言关系，最后再把所有模块得出的结果整合到一起。

原始论文里设置了8个注意力头，GPT-3则用到了96个。大家可以把它当成一个分析小组，小组里每个人观察的角度都不一样，有人专注梳理语法，有人专门判断指代对象，还有人负责识别情绪，集合所有人的分析结果，得出的结论自然会比单人判断更加全面准确。

另外还有一个不能忽略的细节，也就是位置编码。Attention机制本身没有顺序概念，它只计算词汇之间的关联度，所以在它看来，“我爱你”和“你爱我”两组词汇组合没有区别，但现实里这两句话的含义完全不同。

为了解决这个问题，论文作者想出了一个办法，在每个Token对应的Embedding数据里，额外加入位置标识，让模型清楚知道每个词汇出现在句子的第几位。

原始论文采用正弦余弦函数生成位置信号，为每一个位置打造独一无二的特征波形，再和原有数据叠加。

后续这套方案经过不断优化，现在主流的LLaMA模型使用的是旋转位置编码RoPE，效果表现更好，目前大部分主流模型都沿用了这种方式。

有了位置编码搭配Attention机制，Transformer就兼顾了并行运算和语序识别，这是RNN始终无法做到的。

再补充一点，最初版本的Transformer整体分为两大模块，分别是Encoder编码器和Decoder解码器。

编码器主要负责理解输入的内容，解码器则负责生成新内容，这套结构最初就是为机器翻译设计的，输入英文交由编码器解析理解，再由解码器输出对应的中文内容。

在后续发展中，两大模块逐渐分化，走向了完全不同的方向。只保留Encoder模块的代表模型是BERT，它的训练方式类似完形填空，随机遮盖句子里的部分词汇，让模型进行猜测，这类模型擅长理解文本内容，常被用于文本分类、情绪判断、智能问答等场景。

而只保留Decoder模块的代表，就是整个GPT系列、Claude、Llama等模型，它的训练目标是预测下一个词汇，天生擅长生成文字内容。现在大家日常使用的ChatGPT、Claude、Gemini等产品，全部都是基于Decoder-only架构打造。

说起来有点出人意料，仅仅用到Transformer一半的结构，却撑起了如今整个大语言模型时代。

不少人会好奇，为什么“预测下一个词”这个简单目标，能衍生出这么多强大的能力。

我琢磨了很久，得出这样一个结论：想要精准完成预测下一个词的任务，模型就必须真正读懂语句含义，掌握语法规则、生活常识、逻辑推理以及各类客观知识。

只要训练数据足够丰富、模型体量足够大，这个简单的训练目标，就会倒逼模型掌握各类语言相关能力。翻译、逻辑推理、编写代码、数学运算等等功能，都能从“预测下一个词”这个基础任务中逐步衍生出来。

这也是Transformer发展过程中，最颠覆认知的发现之一，不用针对不同任务单独设计模型结构，只要把这一个核心目标做到极致，各类能力都会随之出现。

最后再聊聊模型规模的变化。2017年原始论文中的模型，参数量大约是6500万；2018年推出的GPT-1参数量为1.17亿；2019年的GPT-2达到15亿；到了2020年的GPT-3，参数量直接飙升至1750亿。

短短三年时间，模型参数量提升了三个数量级。从GPT-4开始，官方就不再对外公布具体参数量，业内预估其参数量达到数千亿级别，而DeepSeek V4的总参数量也达到了1.6T。

GPT-3刚面世的时候，很多人都觉得它没太大实用价值，不过是升级版的自动补全工具。

可当它的API正式开放后，整个开发者圈子都沸腾了。这背后离不开一个关键规律，也就是规模定律（Scaling Law），模型体量越大，综合能力就越强。

能力增长并不是简单的线性变化，只要不断扩充模型规模、增加训练数据、投入更多算力，模型能力就会持续提升。而且当规模突破某一个临界点后，模型还会凭空出现此前完全不具备的新能力，这种现象就叫做涌现（Emergence）。

研究员Jason Wei在2022年专门发表论文记录过这一现象，像多步骤逻辑推理、复杂运算这类能力，在小型模型里几乎看不到，可一旦参数量跨过特定门槛，这些能力就会突然出现。

目前没人能精准预判这个临界值，也无法完整解释涌现现象背后的原理。这既是Transformer最让人着迷的地方，同时也带来了不少未知与挑战。

2022年底，ChatGPT突然爆火，上线五天用户量就突破百万，两个月更是斩获一亿用户。这次走红，并不是因为模型参数量再次大幅提升，而是训练方式迎来了革新，也就是RLHF人类反馈强化学习。

依靠这套方法，模型学会了与人对话、理解指令、配合用户需求。模型规模是基础，而如何运用这些参数，才是拉开差距的关键。

在这之后，GPT-4、开源的Llama、Claude、DeepSeek以及各类推理模型相继问世。

如今的GPT5.5、DeepSeek v4、Claude 4.7、Gemini 3.5等新一代模型，早已不局限于单纯预测下一个词，还能先梳理思路再给出回答，思维链推理也成为了新的主流玩法。但追根溯源，它们的底层架构依旧是Transformer。

从2017年到现在，Transformer的核心架构始终没有改变，变化的只是模型规模、训练方式，以及我们对这套架构潜力的不断认知。

回到最开始的问题，我们日常使用的AI产品，底层的Transformer究竟是什么？

总结来说就是：让一句话里的每一个词汇，都能关联到整句话里的其他内容，以此完成语义理解。

采用纯Decoder架构的Transformer，依托海量文本数据，以“预测下一个词”为训练目标，再结合RLHF技术适配对话场景，最后被扩充到超大规模，就构成了如今各类主流AI产品的核心。

看似简单的几句话，背后却是无数技术人员长年累月的试错摸索，是GPU集群日夜运转所消耗的巨大成本，更是2017年那八位谷歌研究员写下的十五页论文。

他们最初只是秉持一个朴素的想法：与其让机器机械记忆所有内容，不如教会它把注意力聚焦在真正关键的信息上。很多改变世界的创新，往往都始于解决眼前一个小小的问题，也愿我们始终保持对未知的好奇。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

Windows本地部署KouriChat：接入DeepSeek与微信的完整教程

智能体开发者社区

从本地Ollama到公网API：New-API聚合网关部署与调用实践

智能体开发者社区

[开源] myclaw：2000 行 Go 平替 43 万行的 OpenClaw

智能体开发者社区

所有评论(0)

查看更多评论

程序员朱鹏

@javatiange

已为社区贡献89条内容

如何通俗讲清 Transformer？内行人都这么回答！

程序员朱鹏

所有评论(0)

温馨提示：您尚未绑定手机号

程序员朱鹏