最近带着团队做AI相关项目,总有人来问我,Transformer到底是什么,它和GPT、BERT还有注意力机制之间又是什么关系。其实不是大家理解能力不够,而是一直没人用大白话把这些内容讲透彻。

今天我就好好梳理一遍,全程不用公式、不贴代码,就像平时聊天一样,把Transformer从头到尾讲清楚。

不管你是刚入行的新人,还是做产品、做业务的伙伴,看完这篇,都能真正搞懂AI底层的逻辑,不是停留在理论层面,而是能恍然大悟,彻底弄明白其中的门道。

先把时间拨回2017年之前。

那时候想要让机器读懂一句话,主流用的都是循环神经网络,也就是大家常说的RNN。我们可以把它想象成一条流水生产线,工人们依次站在传送带两侧。

当“我”“爱”“北京”“天安门”“广场”这些词汇顺着传送带送过来时,第一个工人处理完“我”,就会把相关信息传递给下一个人。第二位工人一边接收前面传来的内容,一边处理“爱”,接着再继续往后传递。

图片

乍一看这套流程没什么问题,可一旦句子变长,弊端就彻底暴露了。

等到词汇传到最后一位工人手里,最初“我”这个词的信息,经过一轮轮传递叠加,早就变得模糊不清,几乎失去原本的含义。

在行内这叫做梯度消失,换成通俗的话讲,就是信息在传递途中不断衰减,到最后基本就消失了。

这就和我们玩的传话游戏一样,一句话经过十几个人转述,最后早就和原话天差地别。

除此之外,这套流水线必须按顺序作业,没办法跳过前面的词汇直接处理后面的内容,自然也就没法同时开展多项运算。这就导致训练一个普通的翻译模型,都得靠着GPU连续运行好几个星期。

后来工程师们也尝试过优化,陆续推出了LSTM、GRU这类改良版本,核心思路就是给RNN加上记忆开关,让模型自主选择哪些信息该保留、哪些该舍弃。

虽然情况有所好转,但本质结构的短板依旧存在,它的能力上限从一开始就被限制住了。在2017年之前,自然语言处理领域基本就是这样,能用,但处处受限,做起来十分憋屈。

转折点出现在2017年6月,谷歌八位研究员发布了一篇论文,标题是Attention Is All You Need,直译过来就是注意力就是你所需要的一切。

刚看到这个标题的时候,不少人都觉得口气太大了。不靠RNN、不用卷积结构,单单依靠注意力机制,真的能做好翻译任务吗?可仅仅过了三个月,这款模型就在翻译评测榜单里超越了当时所有同类产品。

时至今日,这篇论文的引用量已经突破17万次,算得上是AI发展史上影响力最大的论文之一。八名研究者,十五页内容,直接改写了整个AI行业的发展方向。

在这之后,行业发展一路提速,2018年出现BERT,2019年有了GPT-2,2020年GPT-3问世,2022年ChatGPT走红,2023年GPT-4亮相,一直到现在的GPT5.5、DeepSeek v4、Claude opus 4.7,当下主流的这些模型,底层架构全都来源于这篇论文提出的Transformer。

接下来正式聊聊Transformer的工作原理,在此之前,得先弄懂几个基础概念,不然后面的内容很难理解。

首先是Token。AI不会直接识别我们输入的文字,它处理的最小单位就是Token。简单来说,中文里单个汉字一般就是一个Token,英文单词有可能会被拆分,比如transformer会被拆成transform和er两部分,就连标点符号,也会被单独算作一个Token。

我们发给ChatGPT的每一句话,里面的文字和标点,都会先被拆分成一个个Token,之后才会送入模型进行处理。GPT-3的训练数据足足包含3000亿个Token,一本三百页左右的书籍,大概对应10万个Token,而你现在正在读的这篇内容,总量大约在4000个Token上下。

第二个概念是Embedding。文字拆分成Token之后,机器依旧无法识别内容,它只能够读取数字。

所以每一个Token,都会被转化成一组数字,这个转化过程就叫做Embedding,也常被称作词向量或者嵌入。

我们可以想象一个维度极多的立体空间,每一个词语在这个空间里都有专属坐标,意思相近的词语,坐标位置就挨得很近,含义相差较远的词语,坐标距离也会更远。

这里分享一个曾经让我十分惊叹的例子,早期的Word2Vec词向量模型就验证过这个规律,用代表国王的坐标减去代表男性的坐标,再加上代表女性的坐标,最后得出的结果,和代表女王的坐标高度重合。

这并不是杜撰出来的内容,是真实测试得出的结论,语言背后的逻辑,就藏在这些数字的位置关系里。GPT-3所使用的Embedding维度达到12288维,这样复杂的空间我们很难靠想象描绘出来,但机器却能在其中精准摸索出语言规律。

讲完基础概念,就到了最核心的Attention机制,这既是Transformer最大的创新点,也是论文标题Attention Is All You Need的由来。

先来看一个日常场景,“它把杯子放到桌子上,因为它太重了”,这句话里后一个“它”,指代的是杯子还是桌子?相信大家第一时间就能判断答案肯定是杯子,毕竟桌子不存在“太重”这种说法。可机器要怎么做出判断呢?

在RNN盛行的年代,机器只能按顺序逐字读取内容。等读到末尾的“它”时,前面“杯子”的信息经过多次传递,混杂了大量其他内容,机器很难把这两个词汇精准关联起来。

而Attention机制彻底改变了这种模式,当模型读到“它”这个词时,会直接检索整句话里所有词汇,逐一计算彼此的关联程度,最后判定它和“杯子”的关联度最高,就会重点参考“杯子”对应的信息。

和RNN最大的不同就是,它能实现全局关联,不管相关词汇出现在句子开头还是末尾,两者都能直接建立联系,完全不受位置远近的影响。

具体的运算逻辑也很好理解,每一个Token进入Attention机制后,都会被转化成三组向量,也就是大家常说的Q、K、V。

用大白话解释,Q代表我想要查找什么内容,也就是这个词汇想要向其他词汇获取相关信息;K代表我能提供什么内容,相当于这个词汇对外展示的标签,用来匹配各类查询;V则是我本身承载的实际信息,一旦被匹配成功,就会输出对应的内容。

我们可以用图书馆来类比,你走进图书馆,心里带着想要解答的问题,这个问题就是Q。

书架上每一本书都有专属标签,这些标签就是K。

你拿着自己的问题去对照所有书籍标签,找到匹配度最高的书仔细阅读,书中的内容就是V。

Transformer会对句子里的每一个词汇重复这套流程,让每个词都去判断自己和整句话里其他词汇的关联强弱,最后整合所有信息,形成全新的内容表达。

图片

这也是它被叫做自注意力(Self-Attention)的原因,模型会自主梳理一句话内部各个词汇之间的联系。

只使用一组Q、K、V还远远不够。一句话里包含多层信息,有语法结构、有指代关系,还有情绪倾向,单一的注意力模块没办法同时捕捉到这么多维度的内容。

所以Transformer引入了多头注意力(Multi-Head Attention),简单说就是同时运行多套独立的注意力模块,每一个“头”专门负责抓取某一类语言关系,最后再把所有模块得出的结果整合到一起。

原始论文里设置了8个注意力头,GPT-3则用到了96个。大家可以把它当成一个分析小组,小组里每个人观察的角度都不一样,有人专注梳理语法,有人专门判断指代对象,还有人负责识别情绪,集合所有人的分析结果,得出的结论自然会比单人判断更加全面准确。

另外还有一个不能忽略的细节,也就是位置编码。Attention机制本身没有顺序概念,它只计算词汇之间的关联度,所以在它看来,“我爱你”和“你爱我”两组词汇组合没有区别,但现实里这两句话的含义完全不同。

为了解决这个问题,论文作者想出了一个办法,在每个Token对应的Embedding数据里,额外加入位置标识,让模型清楚知道每个词汇出现在句子的第几位。

原始论文采用正弦余弦函数生成位置信号,为每一个位置打造独一无二的特征波形,再和原有数据叠加。

后续这套方案经过不断优化,现在主流的LLaMA模型使用的是旋转位置编码RoPE,效果表现更好,目前大部分主流模型都沿用了这种方式。

有了位置编码搭配Attention机制,Transformer就兼顾了并行运算和语序识别,这是RNN始终无法做到的。

再补充一点,最初版本的Transformer整体分为两大模块,分别是Encoder编码器和Decoder解码器。

编码器主要负责理解输入的内容,解码器则负责生成新内容,这套结构最初就是为机器翻译设计的,输入英文交由编码器解析理解,再由解码器输出对应的中文内容。

在后续发展中,两大模块逐渐分化,走向了完全不同的方向。只保留Encoder模块的代表模型是BERT,它的训练方式类似完形填空,随机遮盖句子里的部分词汇,让模型进行猜测,这类模型擅长理解文本内容,常被用于文本分类、情绪判断、智能问答等场景。

而只保留Decoder模块的代表,就是整个GPT系列、Claude、Llama等模型,它的训练目标是预测下一个词汇,天生擅长生成文字内容。现在大家日常使用的ChatGPT、Claude、Gemini等产品,全部都是基于Decoder-only架构打造。

说起来有点出人意料,仅仅用到Transformer一半的结构,却撑起了如今整个大语言模型时代。

不少人会好奇,为什么“预测下一个词”这个简单目标,能衍生出这么多强大的能力。

我琢磨了很久,得出这样一个结论:想要精准完成预测下一个词的任务,模型就必须真正读懂语句含义,掌握语法规则、生活常识、逻辑推理以及各类客观知识。

只要训练数据足够丰富、模型体量足够大,这个简单的训练目标,就会倒逼模型掌握各类语言相关能力。翻译、逻辑推理、编写代码、数学运算等等功能,都能从“预测下一个词”这个基础任务中逐步衍生出来。

这也是Transformer发展过程中,最颠覆认知的发现之一,不用针对不同任务单独设计模型结构,只要把这一个核心目标做到极致,各类能力都会随之出现。

最后再聊聊模型规模的变化。2017年原始论文中的模型,参数量大约是6500万;2018年推出的GPT-1参数量为1.17亿;2019年的GPT-2达到15亿;到了2020年的GPT-3,参数量直接飙升至1750亿。

短短三年时间,模型参数量提升了三个数量级。从GPT-4开始,官方就不再对外公布具体参数量,业内预估其参数量达到数千亿级别,而DeepSeek V4的总参数量也达到了1.6T。

GPT-3刚面世的时候,很多人都觉得它没太大实用价值,不过是升级版的自动补全工具。

可当它的API正式开放后,整个开发者圈子都沸腾了。这背后离不开一个关键规律,也就是规模定律(Scaling Law),模型体量越大,综合能力就越强。

能力增长并不是简单的线性变化,只要不断扩充模型规模、增加训练数据、投入更多算力,模型能力就会持续提升。而且当规模突破某一个临界点后,模型还会凭空出现此前完全不具备的新能力,这种现象就叫做涌现(Emergence)。

研究员Jason Wei在2022年专门发表论文记录过这一现象,像多步骤逻辑推理、复杂运算这类能力,在小型模型里几乎看不到,可一旦参数量跨过特定门槛,这些能力就会突然出现。

目前没人能精准预判这个临界值,也无法完整解释涌现现象背后的原理。这既是Transformer最让人着迷的地方,同时也带来了不少未知与挑战。

2022年底,ChatGPT突然爆火,上线五天用户量就突破百万,两个月更是斩获一亿用户。这次走红,并不是因为模型参数量再次大幅提升,而是训练方式迎来了革新,也就是RLHF人类反馈强化学习。

依靠这套方法,模型学会了与人对话、理解指令、配合用户需求。模型规模是基础,而如何运用这些参数,才是拉开差距的关键。

在这之后,GPT-4、开源的Llama、Claude、DeepSeek以及各类推理模型相继问世。

如今的GPT5.5、DeepSeek v4、Claude 4.7、Gemini 3.5等新一代模型,早已不局限于单纯预测下一个词,还能先梳理思路再给出回答,思维链推理也成为了新的主流玩法。但追根溯源,它们的底层架构依旧是Transformer。

从2017年到现在,Transformer的核心架构始终没有改变,变化的只是模型规模、训练方式,以及我们对这套架构潜力的不断认知。

回到最开始的问题,我们日常使用的AI产品,底层的Transformer究竟是什么?

总结来说就是:让一句话里的每一个词汇,都能关联到整句话里的其他内容,以此完成语义理解。

采用纯Decoder架构的Transformer,依托海量文本数据,以“预测下一个词”为训练目标,再结合RLHF技术适配对话场景,最后被扩充到超大规模,就构成了如今各类主流AI产品的核心。

看似简单的几句话,背后却是无数技术人员长年累月的试错摸索,是GPU集群日夜运转所消耗的巨大成本,更是2017年那八位谷歌研究员写下的十五页论文。

他们最初只是秉持一个朴素的想法:与其让机器机械记忆所有内容,不如教会它把注意力聚焦在真正关键的信息上。很多改变世界的创新,往往都始于解决眼前一个小小的问题,也愿我们始终保持对未知的好奇。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐