【科普】Transformer中的编码器和解码器有什么区别？

2017 年发表的著名论文《Attention is All You Need》首次揭示了注意力机制的强大作用，这也是大型语言模型能展现出惊人能力的核心所在。论文作者提出了一种名为 Transformer 的网络架构（和 “变形金刚” 是同一个英文单词），它完全基于注意力机制，摒弃了此前提到的RNN。与RNN相比，Transformer支持并行训练，这大大加快了训练速度。

程序员糖仔

1256人浏览 · 2025-05-30 15:05:29

程序员糖仔 · 2025-05-30 15:05:29 发布

在 Transformer 中，编码组件和解码组件是相互堆叠的，就像下图展示的那样。这种架构依然采用自回归的方式，模型会把每个新生成的词用于生成下一个词。

1、编码器和解码器

编码器和解码器块都围绕着注意力机制展开，而不是利用带有注意力特征的RNN。Transformer中的编码器块由两部分组成：自注意力(self-attention)和前馈神经网络(feed-forward neural network)，如图所示。

与之前的注意力方法相比，自注意力可以关注单个序列内部的不同位置，从而更高效且准确地表示输入序列。它可以一次性查看整个序列，而不是一次处理一个词元。

与编码器相比，解码器多了一个注意力层，用于关注编码器的输出（以便找到输入中相关的部分）。如下图所示，这个过程类似于RNN注意力解码器。

解码器中的自注意力层会掩码未来的位置，这样在生成输出时就只会关注之前的位置，从而避免信息泄露，避免让模型提前“看到未来”。

结构对比

组件	编码器	解码器
注意力机制	仅多头自注意力（全局可见，无掩码）	1. 掩码多头自注意力（仅关注历史信息） 2. 编码器-解码器注意力（整合编码器输出）
输入处理	直接处理原始输入序列	接收编码器输出 + 已生成的目标序列（右移一位）
掩码机制	无	使用掩码防止关注未来位置（保证自回归性）
参数量	较少（无交叉注意力层）	略多（因额外交叉注意力层）

2、是否可单独使用？

先回答可以。然后分别看怎样单独使用。

表示模型：仅编码器模型

原始的Transformer模型是一个编码器-解码器架构，虽然非常适合翻译任务，但难以用于其他任务，比如文本分类。2018年，研究人员提出了一种名为BERT（bidirectional encoder representations from Transformers，基于Transformer的双向编码器表示）的新架构，它可以应用于各种任务，并在未来几年成为语言人工智能的基石。如下图所示，BERT是一个仅编码器架构，专注于语言表示。这意味着它只使用编码器，完全移除了解码器。

这些堆叠起来的编码器很难训练，因此BERT采用了一种被称为掩码语言建模(masked language modeling)的技术来解决这个问题。如下图所示，该方法会掩码部分输入，让模型预测被掩码的部分。这样的预测任务虽然困难，但能让BERT为输入序列创建更准确的（中间）表示。

这种架构和训练过程使BERT及相关架构在表示依赖上下文的文本方面表现十分出色。BERT类模型通常用于迁移学习(transfer learning)，这包括首先针对语言建模进行预训练(pretraining)，然后针对特定任务进行微调(fine-tuning)。例如，通过在整个维基百科的文本数据上训练BERT，它学会了理解文本的语义和上下文性质。然后，我们可以使用该预训练模型，针对特定任务（如文本分类）进行微调。

预训练模型的一个巨大优势是大部分训练工作已经完成。针对特定任务的微调通常计算量较小，且需要的数据更少。此外，BERT类模型架构在处理过程中的几乎每一步都会生成嵌入，这使得BERT模型成为通用特征提取器，无须针对特定任务进行微调。

生成模型：仅解码器模型

与BERT的仅编码器架构类似，2018年出现了一种用于处理生成任务的仅解码器架构—— GPT（生成式预训练Transformer，现在被称为GPT-1，以区别于后续版本）。GPT因其生成能力而得名。如下图所示，它与BERT编码器堆叠架构类似，堆叠了多个解码器块。

GPT-1在7000本图书和Common Crawl（一个大型网页数据集）上进行训练。最终模型包含1.17亿个参数。每个参数都是一个数值，代表着模型对语言的理解。假设其他条件相同，我们预计更多的参数能显著提升语言模型的能力和性能。考虑到这一点，我们已经看到新发布的模型越来越大，模型规模稳步提升。如图所示，GPT-2有15亿个参数，GPT-3则有1750亿个参数。

这些生成式仅解码器模型，特别是“更大”的模型，通常被称为大语言模型(LLM)。正如我们将在本章后面讨论的，LLM这个术语不仅仅指代生成模型（仅解码器），也包括表示模型（仅编码器）。

生成式LLM作为一种序列到序列(sequence-to-sequence，Seq2Seq)的文本生成系统，其核心机制是接收文本输入并尝试自动补全。尽管自动补全功能很实用，但这类模型真正的强大之处在于经过训练成为聊天机器人。与其只是补全文本，不如将它们训练得能够回答问题。通过微调这些模型，我们可以创建能够遵循人类指示的指令模型(instruct model)或对话模型(chat model)。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla