【NLP】Transformer三大分支

类别核心组件训练目标典型任务生成能力纯 Encoder 模型Encoder 堆叠双向上下文理解分类、实体识别、语义匹配无纯 Decoder 模型Decoder 堆叠自回归文本生成文本生成、代码生成强Encoder-Decoder 模型输入到输出的映射翻译、摘要、生成式问答中等。

油泼辣子多加

713人浏览 · 2025-04-12 11:00:00

油泼辣子多加 · 2025-04-12 11:00:00 发布

Transformer模型衍生出了很多不同结构模型，归类后可以分为以下三种：

纯 Encoder 模型（例如 BERT），又称自编码 (auto-encoding) Transformer 模型；
纯 Decoder 模型（例如 GPT），又称自回归 (auto-regressive) Transformer 模型；
Encoder-Decoder 模型（例如 BART、T5），又称 Seq2Seq (sequence-to-sequence) Transformer 模型。

1. 纯 Encoder 模型（自编码模型）

代表模型：BERT、RoBERTa、ALBERT、DistilBERT

核心特点

仅保留 Transformer 的 Encoder 层：模型通过多层自注意力机制（Self-Attention）和前馈神经网络构建，每层 Encoder 包含双向注意力机制。
训练目标：以“理解上下文”为核心，通过预训练任务学习文本的深层表征。
- 掩码语言建模（MLM, Masked Language Modeling）：随机遮盖输入中的部分词，模型通过上下文预测被遮盖的词（如 BERT）。
- 下一句预测（NSP, Next Sentence Prediction）：判断两个句子是否是连续段落（已逐渐被其他任务替代）。
双向上下文建模：每个词可以关注整个句子的所有位置，捕捉全局语义信息。

优缺点

优点：擅长文本理解任务（如分类、实体识别）、生成高质量的词向量。
缺点：无法直接生成文本（缺少自回归生成能力）。

应用场景

文本分类（情感分析、垃圾邮件检测）
命名实体识别（NER）
语义相似度计算
问答系统（如抽取式问答）

2. 纯 Decoder 模型（自回归模型）

代表模型：GPT 系列（GPT-2、GPT-3、GPT-4）、LLaMA、BLOOM

核心特点

仅保留 Transformer 的 Decoder 层：使用带掩码的自注意力机制（Masked Self-Attention），确保每个词只能关注其左侧的上下文，避免信息泄露。
训练目标：以“生成文本”为核心，通过自回归（Auto-regressive）方式逐词预测下一个词。
- 因果语言建模（CLM, Causal Language Modeling）：输入为序列的前缀，模型预测下一个词（如 GPT 系列）。
单向上下文建模：生成时严格遵循从左到右的顺序，适合文本生成任务。

优缺点

优点：强大的文本生成能力（如故事创作、代码生成），支持零样本（Zero-shot）和小样本（Few-shot）学习。
缺点：对上下文的理解弱于 Encoder 模型（仅依赖左侧信息）。

应用场景

文本生成（对话、续写故事）
代码生成
文本摘要（生成式）
机器翻译（部分模型通过指令微调实现）

3. Encoder-Decoder 模型（Seq2Seq 模型）

代表模型：BART、T5、Pegasus、MarianMT

核心特点

同时包含 Encoder 和 Decoder：Encoder 负责理解输入文本，Decoder 负责生成输出文本，二者通过交叉注意力（Cross-Attention）连接。
训练目标：以“输入到输出的映射”为核心，通过序列到序列（Seq2Seq）任务训练。
- 去噪自编码（Denoising Autoencoder）：对输入文本加入噪声（如遮盖、删除、打乱顺序），模型还原原始文本（如 BART）。
- 统一文本到文本任务（Text-to-Text）：将所有任务（分类、翻译、摘要）统一为“输入文本→输出文本”格式（如 T5）。

优缺点

优点：灵活支持多种任务（尤其需要理解输入并生成输出的场景），平衡理解和生成能力。
缺点：参数量大，训练和推理成本较高。

应用场景

机器翻译（如英文→中文）
文本摘要（生成式）
问答系统（生成式问答）
文本风格迁移（如正式→非正式）

4.对比总结

类别	核心组件	训练目标	典型任务	生成能力
纯 Encoder 模型	Encoder 堆叠	双向上下文理解	分类、实体识别、语义匹配	无
纯 Decoder 模型	Decoder 堆叠	自回归文本生成	文本生成、代码生成	强
Encoder-Decoder 模型	Encoder + Decoder	输入到输出的映射	翻译、摘要、生成式问答	中等

5.选择建议

纯 Encoder 模型：适用于需要深度理解文本的任务（如分类、NER）。
纯 Decoder 模型：适用于开放域生成任务（如对话、创作）。
Encoder-Decoder 模型：适用于需要复杂转换的任务（如翻译、摘要）。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla