本文将Transformer工作原理比喻为"文字接龙游戏",详细解释了词嵌入将文字转化为向量,通过多头自注意力机制和QKV机制计算词语关系,最终通过概率抽样输出内容。介绍了Transformer的三大核心组成部分及参数调节方法(Temperature、Top_k和Top_p)如何控制AI输出的创造性。理解Transformer原理有助于掌握AI模型工作机制和解决实际问题。

一、 Transformer基本原理:文字接龙游戏

如果要用一句话来描述Transformer的工作原理,那就是在输出文字的过程中不断重复计算同一个问题:“根据前面的文字,最有可能的下一个字(词)是什么呢?”

没错,基于Transformer架构所生成的内容,它的特征就是基于前面的文字去预测下一个字词,然后再将生成的字词和此前的文字再次组合,再预测下一个字词(或者标点符号),如此往复,直至预测出“结束”()的标签为止。

所谓预测,其实就是一个概率游戏。已经被训练过的模型会根据输入的内容计算出所有字词的概率分布,然后从中抽取一个字词作为接龙。模型每一次计算概率的时候,大概的感觉是这样的:

我们发现,在询问AI同一个问题的时候,它回答的内容并非一成不变的。当中的最重要原因,就是“概率”问题。AI生成每一个字都是根据概率抽取的,也就是说哪怕面对同一个输入内容,结果在多次抽取中也可能出现变化。

我们回到Transformer的介绍。Transformer主要由三个部分组成

词嵌入 Embedding:将文字转化为数组,使每个字词都变成“可计算”的向量。

Transformer转换模块:通过“多头自注意力”机制将向量进行组合和计算,并通过多层运算逐步修正数据,并输出概率分布。

概率抽样 Probabilities & Sampling:根据输出的概率分布数据进行抽样,最终确定输出的字词。

二、Transformer的工作流程

我们以基于Transformer的文字推理模型GPT-2为例(ChatGPT的前身,相对简单方便解说,现实使用的大模型的工作机制更加复杂)。现在我给出以下三个词:make America great,让模型接下来猜下一个词。熟知时事的我们当然会脱口而出“again”,但计算机只会计算。我们知道,文字是不能进行直接“计算”的,于是计算机模型会把每个词语(此处以英语为例,有时还会拆分词根)转化为一个可以计算的数字。得益于计算机的超强计算能力,我们可以把任意词语转化为一个包含很多个“坐标”的数组,以表示它在一个高维空间中的位置。这就是“词嵌入”(embedding)的过程。

词嵌入

首先,模型会将"make"“America”"great"三个词语分别拆开,把它变成一个个Token。Token是大模型计算的最小的单位,一般是一个单词/常用词组(英语、西班牙语等)或者一个汉字/词组(汉语、日语等)。此前有人问AI“单词Strawberry里有多少个R”,AI基本都答错,那是因为对于AI来说,“Strawberry”是它处理数据的最小单位,而不是拼写它的每个字母。为什么要这么设计呢?因为针对单个字母的讨论在大部分的语言环境中都是没有意义的,绝大部分的AI的最小处理单元就是一个单词。

在词嵌入的过程中,每个词语都会被赋予一个特定长度的数组。在以上的GPT-2例子中,这个长度就是768。也就是说每个词语都会被转化成一个包含768个数的数组,并赋予一个特定的ID。这个映射关系是在使用大规模语言材料训练模型的时候被习得的,目的是为了通过计算两个数组在高维空间中的位置远近,来表示任意两个单词之间的关系。词语之间越接近,说明它们之间一起出现的概率越高。

在嵌入向量的同时,模型还会对输入的词语进行位置编码,以确定他们在一个句子中的正确位置。这两组向量相加形成了一个完整的输入向量,进行下一步的多层运算。

多头自注意力机制

“注意力机制”(Attention)是Transformer的核心技术特征。它通过计算输入向量之间的特征,来判断每个词语在句子中和其他词语的关系,以确定每个词语在句子中的含义。

在Transformer中,每个Token在被重新计算的时候,都会被赋予一组“注意力得分”,就是这个token与输入的所有token之间分别进行向量点积运算(向量点积运算:两个向量数组之间,对应的位置相乘,再求和)。点积运算的结果越大,说明这两个向量的距离越近——注意力得分便越高。

这样,我们就得出了每个token相对于句子中的所有token的注意力得分/权重。(在实际计算中,为了表示概率/权重,会将注意力得分进行“归一化”处理,以保证所有注意力得分的总和为1。)接下来,按照权重对原嵌入的向量进行加权求和,得出一个新的token向量数组——这个新的token向量“捕捉”到了句子中所有token的注意力。

我们把句子中的所有token按照这个方法计算,得到每两个token之间的注意力权重。在上述例子中,注意力权重(未归一化时)可表示为:

make America great
make -4.21 -15.23 -15.43
America -1.85 -21.36 -18.16
great 1.54 -6.14 -13.04

表格的读法按行从左到右,表示以某个token为中心,相对于当前所有token的向量点积。但是这种计算方法有问题:我们知道Transformer是一个预测模型,因此在捕捉注意力的时候,我们不能把在这个token之后出现的token计算在内——否则这个token便相当于“预知”了答案。在训练模型的过程中,如果模型“预知”了答案,那么它就会选择把注意力权重集中在下一个token作为最优解。所以我们在归一化前要进行“掩码”操作,就是把图表中在第一列token之后出现的token的注意力权重都变成(近似于)0,再重新计算点积。

make America great
make -0.53 / /
America -0.23 -2.67 /
great 0.19 -0.77 -1.63

最后进行归一化(softmax)计算,确保每一行的总和为1:

make America great
make 1 / /
America 0.92 0.08 /
great 0.65 0.25 0.10

这样我们就完成了一次注意力的捕捉,得到的每个注意力参数都分别与原向量进行加权求和,最后得到新的向量。

Query, Key 和 Value

在这里我们可以发现,每个token在这个过程中要做三件事:发起查询、被查询、被求和。在注意力机制中,我们使用Query(发起查询,即表格第一列)、Key(键,即表格第一行)、Value(值,即原向量数组的值),这也就是Transformer的QKV机制。同一个向量被赋予不同职责,各司其职。

  1. 为了让它们负责不同的工作,我们对每一个token的原向量分别乘以一个Q/K/V的参数矩阵(Q/K/V weights,通过大规模数据训练得出),得到一式三份新的Q/K/V向量。
  2. 后续计算过程和前面一致,通过Q、K向量组成注意力矩阵、计算向量点积、掩盖未来token、归一化参数。
  3. 得出注意力参数后,与V向量进行加权运算,得出对于每个token的新向量,完成这一层的计算。
  4. 深度学习会设置多次重复计算,利用不同的QKV参数矩阵来表示不同的任务(例如指令**、知识、语法、推理……)我们称之为“头”(heads),对同一个token进行多次运算。**Token经过多层的计算后(在这个例子中,GPT-2一共有12层)再把这12个向量“压缩”成一个新的向量——新的向量和原嵌入向量的长度相等(1,768),数值不同。

概率计算

得到新的向量后,模型将进入预测阶段,目标就是预测出下一个token的出现概率。每一个大语言模型都有一个“词汇表”,也就是我们在词嵌入过程中给每个token分配的ID的根据。这个词汇表(在GPT-2里有50257个token)经过训练,被表示为一个参数矩阵。把这个矩阵与新嵌入向量相乘,得到一个新的向量——这个过程一般称为“logit”(对数几率)。这个向量表示输出向量和词汇表里的每一个token的关联度——也就是预测出最有可能与原token(在这里例子里是"great")连接的token。

光是向量表示并不容易计算,我们为了更直观了解预测概率,我们再次通过“归一化”把向量的值表示为0-1的概率,并确保所有概率的总和为1。得到这个概率后,模型会在候选token中按概率抽取下一个token并输出。在这个例子中,通过归一化后,模型得出了最有可能出现的词语是:again(96.31%),其次是输出一个句号和双引号(1.14%),其他的选项都几乎不可能出现。因此,在大部分情况下,“again”会紧接着“make America great”出现。

这就是我们现在使用的生成式AI的工作原理——它并没有高深的魔法,也没有原生智能,它所有的是数学家、计算机学家们对统计学、概率学、机器学习深度学习的长期研究和实践。我们现在所谓的“AI玄学”和“抽卡论”,其实就是统计学和概率的外在体现。

调节概率

我们可以通过调节归一化的方式来调节输出的概率。对于AI工程师来说,我们主要可以调节三个参数:Temperature(温度)Top_k和Top_p。

温度影响归一化后概率的分布。温度越高,概率的分布越平整——本来较低概率的选项会有更高概率被抽中。例如我把温度从0.8调成3后,后四个选项的概率得到了显著提升,这也让我们的输出内容变得更有“创造性”——有更高的机会选到原来低概率的token。但是创造性也是一把双刃剑——AI胡言乱语的几率也更高。

以下的参数和候选token的数量有关。Top_k参数规定了从多少个候选token当中抽取,例如把top_k调整到10,则候选名单从前5个token延展到前10个。Top_p参数指的是从累计概率不高于p值(0到1)名单中抽取。这两种方法从另一个角度赋予了大模型“创造性”。

写在最后

我认为Transformer技术是每个希望用好AI的用户必须理解的一项基础技术。只有理解了Transformer的原理,才能理解在我们应用实践中出现的各种问题,例如AI幻觉的产生、提示词的优化、预训练技巧等等。实际上基于Transformer的大模型训练和推理要更加复杂,作为初级和中级的学习者并不一定要完全掌握,我认为只要理解Transformer的运作机制,便足以应对日常的工作任务了。这也是我创作这篇文章的初衷——把复杂的技术资料通过浅白、有趣的方式向大家普及。


如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐