大模型(如 GPT、BERT 等)训练一般可以分为以下 三个主要阶段,每个阶段都承担着不同的职责,共同推动模型从“语言新手”成长为“多任务专家”。


🧠 一、预训练阶段(Pre-training)

📌 核心目标:

让模型学习通用语言知识世界常识

✅ 特点:
  • 数据量巨大(TB级以上),通常来自网络、书籍、百科等;
  • 无监督或自监督学习
    • BERT 使用 掩码语言模型(MLM)
    • GPT 使用 自回归语言模型(Auto-regressive)
🏗️ 技术细节:
  • Transformer 架构为主;
  • 大批量并行训练;
  • 大模型参数通常达到数十亿甚至万亿级别。
🎯 目标是:

学习语法、常识、句式结构、上下文语义等 通用能力


🧪 二、微调阶段(Fine-tuning)

📌 核心目标:

让模型适应特定任务或领域,比如情感分析、问答、摘要、代码生成等。

✅ 特点:
  • 有监督学习(带标签数据);
  • 使用比预训练小得多的语料;
  • 不同任务、领域会分别训练(可以多任务同时也可以单任务)。
🎯 效果:

提升模型在特定领域/任务中的精度和表现力,例如:

  • 金融领域微调后擅长分析报告;
  • 医疗微调后能更好理解临床对话。

👥 三、对齐与指令微调(Alignment / Instruction Tuning)

📌 核心目标:

让模型行为更加“人类对齐”,安全、守规、有用。

✅ 典型方法:
  • 指令微调(Instruction Tuning):训练模型遵循“用户指令”,例如“写一个摘要”;
  • 人类反馈强化学习(RLHF)
    • 收集用户偏好数据(哪个回答更好)
    • 用奖励模型训练一个“人喜欢的行为”策略
  • 还有例如 DPO(Direct Preference Optimization)、RLAIF 等新技术替代 RLHF。
🎯 结果:
  • 让模型更加 “对人友好”;
  • 能对话、解释、拒绝危险请求。

🧩 附加阶段(可选)

阶段 描述
Continual Learning(持续学习) 保持模型随时间更新而不过时
Retrieval-Augmented Training(检索增强训练) 融合外部知识库,提升时效性和精度
蒸馏(Distillation) 将大模型能力压缩为小模型

📊 小结

阶段 核心任务 学习方式 数据类型
预训练 学习语言本体 自监督 大规模无标签
微调 学习任务技能 有监督 中小规模标注数据
对齐 适应人类期望 人类反馈+微调 偏好/指令/打分数据
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐