在 AI 大模型的训练过程中,涉及多种关键技术。这些技术通常分为预训练阶段后训练(Post-training)阶段,每个阶段使用不同的训练方法来提升模型的语言理解、推理能力和领域适应性。
在这里插入图片描述


🧠 一、AI 大模型训练的主要技术分类

训练技术 阶段 目标 特点
自监督预训练(Self-supervised Pretraining) 预训练 学习通用语言表示 使用大量无标签数据,通过 MLM 或 Causal LM 等任务进行训练
监督微调(Supervised Finetuning, SFT) 后训练 对齐人类偏好与指令 使用高质量标注的对话对数据,使模型更好地理解和回应指令
奖励建模(Reward Modeling, RM) 后训练 构建奖励函数用于强化学习 利用人类偏好数据训练评分模型,指导后续强化学习优化
强化学习(Reinforcement Learning from Human Feedback, RLHF) 后训练 进一步优化模型输出质量 利用奖励模型作为反馈信号,通过 PPO 等算法优化策略
基于提示的微调(Prompt Tuning / Prefix Tuning / LoRA) 微调/适配 轻量级参数调整 在不修改原始模型参数的前提下,仅调整前缀或适配层
领域适配(Domain Adaptation) 后训练/部署前 提升特定领域表现 在特定领域语料上继续训练或微调
持续学习(Continual Learning) 后训练 支持新知识更新 在已有模型基础上增量训练新数据,避免遗忘旧知识

🔍 二、各技术详解与对比

1. 自监督预训练(Self-supervised Pretraining)

  • 阶段:第一阶段
  • 目标:构建通用的语言表示能力
  • 方法
    • MLM(Masked Language Modeling)
    • Causal Language Modeling(CLM)
  • 数据来源:互联网文本、书籍、百科等大规模无监督语料
  • 特点
    • 数据量极大(TB级别)
    • 不依赖人工标注
    • 模型具备广泛的语言理解能力但不具备指令遵循能力

2. 监督微调(SFT)

  • 阶段:第二阶段
  • 目标:使模型能理解并执行用户指令
  • 方法
    • 使用人工构造的指令-响应对进行有监督训练
  • 数据来源
    • 人工标注的问答对、多轮对话数据
  • 特点
    • 显著提升模型的指令遵循能力
    • 为后续 RLHF 打下基础
    • 仍可能存在幻觉问题

3. 奖励建模(RM)

  • 阶段:第三阶段
  • 目标:建立一个评价标准,衡量模型生成结果的质量
  • 方法
    • 输入多个候选回复,输出排序分数
    • 使用人类偏好数据训练模型打分能力
  • 特点
    • 依赖人工标注偏好数据
    • 是 RLHF 的前提条件

4. 强化学习(RLHF)

  • 阶段:第四阶段
  • 目标:优化模型输出以最大化人类满意度
  • 方法
    • 利用奖励模型作为反馈机制
    • 使用 PPO(Proximal Policy Optimization)等算法进行策略优化
  • 特点
    • 输出更自然、符合人类偏好的回复
    • 可减少幻觉和不安全内容
    • 训练成本高且不稳定

5. 轻量化微调技术(Prompt Tuning / LoRA / Prefix Tuning)

  • 阶段:适配阶段 / 部署阶段
  • 目标:快速适配下游任务或特定领域
  • 方法
    • Prompt Tuning:在输入中添加可学习的 prefix token
    • LoRA:低秩矩阵插入权重中实现参数高效微调
  • 特点
    • 参数效率高
    • 适合资源受限场景
    • 可结合 SFT 和领域适配使用

6. 领域适配(Domain Adaptation)

  • 阶段:后训练或部署前
  • 目标:增强模型在特定领域的表现(如医学、法律、编程)
  • 方法
    • 在特定领域语料上继续预训练
    • 或者在该领域数据上做 SFT
  • 特点
    • 提升垂直领域准确性
    • 可避免从头训练

7. 持续学习(Continual Learning)

  • 阶段:模型部署后
  • 目标:让模型不断吸收新知识而不遗忘旧知识
  • 方法
    • 使用 replay buffer 保存旧样本
    • 正则化方法防止灾难性遗忘
  • 特点
    • 实现长期演进
    • 技术难度较高

📊 三、不同阶段与领域中的技术应用情况

阶段 主要使用技术 应用场景示例
预训练阶段 自监督预训练 构建通用语言模型(如 GPT、LLaMA)
指令对齐阶段 SFT + RM + RLHF 对齐用户意图,提高交互体验(如 ChatGPT、通义千问)
领域适配阶段 领域微调、LoRA、Prompt Tuning 医疗、金融、教育等领域定制模型
持续演进阶段 持续学习 企业私有模型随业务演进

✅ 四、总结表格对比

技术名称 是否需要标注数据 是否需人类参与 是否改变主干参数 是否适合领域适配 是否支持增量训练
自监督预训练 ❌ 否 ❌ 否 ✅ 是 ❌ 否 ❌ 否
SFT ✅ 是 ✅ 是 ✅ 是 ✅ 是 ❌ 否
RM ✅ 是 ✅ 是 ✅ 是 ❌ 否 ❌ 否
RLHF ✅ 是 ✅ 是 ✅ 是 ❌ 否 ❌ 否
Prompt Tuning ❌ 否 / ✅ 是 ❌ 否 ❌ 否 ✅ 是 ✅ 是
LoRA ❌ 否 / ✅ 是 ❌ 否 ❌ 否 ✅ 是 ✅ 是
领域适配 ✅ 是 ❌ 否 ✅ 是 ✅ 是 ❌ 否
持续学习 ✅ 是 ❌ 否 ✅ 是 ✅ 是 ✅ 是

📌 五、选择建议

  • 构建通用大模型:重点使用自监督预训练。
  • 提升交互能力:采用 SFT + RM + RLHF 组合。
  • 轻量级适配:优先考虑 LoRA、Prompt Tuning。
  • 垂直领域落地:结合 SFT 和领域微调。
  • 模型持续进化:引入持续学习机制。

如需进一步了解具体技术细节(如 RLHF 中的 PPO 算法、LoRA 的矩阵分解原理等),可以继续提问。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐