Transformer模型衍生出了很多不同结构模型,归类后可以分为以下三种:

  • 纯 Encoder 模型(例如 BERT),又称自编码 (auto-encoding) Transformer 模型;
  • 纯 Decoder 模型(例如 GPT),又称自回归 (auto-regressive) Transformer 模型;
  • Encoder-Decoder 模型(例如 BART、T5),又称 Seq2Seq (sequence-to-sequence) Transformer 模型。
    在这里插入图片描述

1. 纯 Encoder 模型(自编码模型)

代表模型:BERT、RoBERTa、ALBERT、DistilBERT
核心特点
  • 仅保留 Transformer 的 Encoder 层:模型通过多层自注意力机制(Self-Attention)和前馈神经网络构建,每层 Encoder 包含双向注意力机制。
  • 训练目标:以“理解上下文”为核心,通过预训练任务学习文本的深层表征。
    • 掩码语言建模(MLM, Masked Language Modeling):随机遮盖输入中的部分词,模型通过上下文预测被遮盖的词(如 BERT)。
    • 下一句预测(NSP, Next Sentence Prediction):判断两个句子是否是连续段落(已逐渐被其他任务替代)。
  • 双向上下文建模:每个词可以关注整个句子的所有位置,捕捉全局语义信息。
优缺点
  • 优点:擅长文本理解任务(如分类、实体识别)、生成高质量的词向量。
  • 缺点:无法直接生成文本(缺少自回归生成能力)。
应用场景
  • 文本分类(情感分析、垃圾邮件检测)
  • 命名实体识别(NER)
  • 语义相似度计算
  • 问答系统(如抽取式问答)

2. 纯 Decoder 模型(自回归模型)

代表模型:GPT 系列(GPT-2、GPT-3、GPT-4)、LLaMA、BLOOM
核心特点
  • 仅保留 Transformer 的 Decoder 层:使用带掩码的自注意力机制(Masked Self-Attention),确保每个词只能关注其左侧的上下文,避免信息泄露。
  • 训练目标:以“生成文本”为核心,通过自回归(Auto-regressive)方式逐词预测下一个词。
    • 因果语言建模(CLM, Causal Language Modeling):输入为序列的前缀,模型预测下一个词(如 GPT 系列)。
  • 单向上下文建模:生成时严格遵循从左到右的顺序,适合文本生成任务。
优缺点
  • 优点:强大的文本生成能力(如故事创作、代码生成),支持零样本(Zero-shot)和小样本(Few-shot)学习。
  • 缺点:对上下文的理解弱于 Encoder 模型(仅依赖左侧信息)。
应用场景
  • 文本生成(对话、续写故事)
  • 代码生成
  • 文本摘要(生成式)
  • 机器翻译(部分模型通过指令微调实现)

3. Encoder-Decoder 模型(Seq2Seq 模型)

代表模型:BART、T5、Pegasus、MarianMT
核心特点
  • 同时包含 Encoder 和 Decoder:Encoder 负责理解输入文本,Decoder 负责生成输出文本,二者通过交叉注意力(Cross-Attention)连接。
  • 训练目标:以“输入到输出的映射”为核心,通过序列到序列(Seq2Seq)任务训练。
    • 去噪自编码(Denoising Autoencoder):对输入文本加入噪声(如遮盖、删除、打乱顺序),模型还原原始文本(如 BART)。
    • 统一文本到文本任务(Text-to-Text):将所有任务(分类、翻译、摘要)统一为“输入文本→输出文本”格式(如 T5)。
优缺点
  • 优点:灵活支持多种任务(尤其需要理解输入并生成输出的场景),平衡理解和生成能力。
  • 缺点:参数量大,训练和推理成本较高。
应用场景
  • 机器翻译(如英文→中文)
  • 文本摘要(生成式)
  • 问答系统(生成式问答)
  • 文本风格迁移(如正式→非正式)

4.对比总结

类别 核心组件 训练目标 典型任务 生成能力
纯 Encoder 模型 Encoder 堆叠 双向上下文理解 分类、实体识别、语义匹配
纯 Decoder 模型 Decoder 堆叠 自回归文本生成 文本生成、代码生成
Encoder-Decoder 模型 Encoder + Decoder 输入到输出的映射 翻译、摘要、生成式问答 中等

5.选择建议

  • 纯 Encoder 模型:适用于需要深度理解文本的任务(如分类、NER)。
  • 纯 Decoder 模型:适用于开放域生成任务(如对话、创作)。
  • Encoder-Decoder 模型:适用于需要复杂转换的任务(如翻译、摘要)。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐