【NLP】Transformer三大分支
类别核心组件训练目标典型任务生成能力纯 Encoder 模型Encoder 堆叠双向上下文理解分类、实体识别、语义匹配无纯 Decoder 模型Decoder 堆叠自回归文本生成文本生成、代码生成强Encoder-Decoder 模型输入到输出的映射翻译、摘要、生成式问答中等。
·
Transformer模型衍生出了很多不同结构模型,归类后可以分为以下三种:
- 纯 Encoder 模型(例如 BERT),又称自编码 (auto-encoding) Transformer 模型;
- 纯 Decoder 模型(例如 GPT),又称自回归 (auto-regressive) Transformer 模型;
- Encoder-Decoder 模型(例如 BART、T5),又称 Seq2Seq (sequence-to-sequence) Transformer 模型。

1. 纯 Encoder 模型(自编码模型)
代表模型:BERT、RoBERTa、ALBERT、DistilBERT
核心特点
- 仅保留 Transformer 的 Encoder 层:模型通过多层自注意力机制(Self-Attention)和前馈神经网络构建,每层 Encoder 包含双向注意力机制。
- 训练目标:以“理解上下文”为核心,通过预训练任务学习文本的深层表征。
- 掩码语言建模(MLM, Masked Language Modeling):随机遮盖输入中的部分词,模型通过上下文预测被遮盖的词(如 BERT)。
- 下一句预测(NSP, Next Sentence Prediction):判断两个句子是否是连续段落(已逐渐被其他任务替代)。
- 双向上下文建模:每个词可以关注整个句子的所有位置,捕捉全局语义信息。
优缺点
- 优点:擅长文本理解任务(如分类、实体识别)、生成高质量的词向量。
- 缺点:无法直接生成文本(缺少自回归生成能力)。
应用场景
- 文本分类(情感分析、垃圾邮件检测)
- 命名实体识别(NER)
- 语义相似度计算
- 问答系统(如抽取式问答)
2. 纯 Decoder 模型(自回归模型)
代表模型:GPT 系列(GPT-2、GPT-3、GPT-4)、LLaMA、BLOOM
核心特点
- 仅保留 Transformer 的 Decoder 层:使用带掩码的自注意力机制(Masked Self-Attention),确保每个词只能关注其左侧的上下文,避免信息泄露。
- 训练目标:以“生成文本”为核心,通过自回归(Auto-regressive)方式逐词预测下一个词。
- 因果语言建模(CLM, Causal Language Modeling):输入为序列的前缀,模型预测下一个词(如 GPT 系列)。
- 单向上下文建模:生成时严格遵循从左到右的顺序,适合文本生成任务。
优缺点
- 优点:强大的文本生成能力(如故事创作、代码生成),支持零样本(Zero-shot)和小样本(Few-shot)学习。
- 缺点:对上下文的理解弱于 Encoder 模型(仅依赖左侧信息)。
应用场景
- 文本生成(对话、续写故事)
- 代码生成
- 文本摘要(生成式)
- 机器翻译(部分模型通过指令微调实现)
3. Encoder-Decoder 模型(Seq2Seq 模型)
代表模型:BART、T5、Pegasus、MarianMT
核心特点
- 同时包含 Encoder 和 Decoder:Encoder 负责理解输入文本,Decoder 负责生成输出文本,二者通过交叉注意力(Cross-Attention)连接。
- 训练目标:以“输入到输出的映射”为核心,通过序列到序列(Seq2Seq)任务训练。
- 去噪自编码(Denoising Autoencoder):对输入文本加入噪声(如遮盖、删除、打乱顺序),模型还原原始文本(如 BART)。
- 统一文本到文本任务(Text-to-Text):将所有任务(分类、翻译、摘要)统一为“输入文本→输出文本”格式(如 T5)。
优缺点
- 优点:灵活支持多种任务(尤其需要理解输入并生成输出的场景),平衡理解和生成能力。
- 缺点:参数量大,训练和推理成本较高。
应用场景
- 机器翻译(如英文→中文)
- 文本摘要(生成式)
- 问答系统(生成式问答)
- 文本风格迁移(如正式→非正式)
4.对比总结
| 类别 | 核心组件 | 训练目标 | 典型任务 | 生成能力 |
|---|---|---|---|---|
| 纯 Encoder 模型 | Encoder 堆叠 | 双向上下文理解 | 分类、实体识别、语义匹配 | 无 |
| 纯 Decoder 模型 | Decoder 堆叠 | 自回归文本生成 | 文本生成、代码生成 | 强 |
| Encoder-Decoder 模型 | Encoder + Decoder | 输入到输出的映射 | 翻译、摘要、生成式问答 | 中等 |
5.选择建议
- 纯 Encoder 模型:适用于需要深度理解文本的任务(如分类、NER)。
- 纯 Decoder 模型:适用于开放域生成任务(如对话、创作)。
- Encoder-Decoder 模型:适用于需要复杂转换的任务(如翻译、摘要)。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)