大模型微调解读及参数设置实践示例

方法核心思想优点缺点适用场景全量微调（FFT）重新训练所有参数性能提升显著计算资源大，可能遗忘通用知识数据量大、任务复杂训练小型附加参数（提示词）计算成本低，避免遗忘需要设计好的提示词小数据量、多任务场景在输入前加前缀向量高效，适合特定任务需要优化前缀向量任务导向型场景LoRA通过低秩分解添加少量参数快速适应，轻松切换任务需要设计低秩结构多任务、资源有限场景监督式微调（SFT）用带标签的数据训练简

黑客小蓝

1237人浏览 · 2025-05-07 17:12:09

黑客小蓝 · 2025-05-07 17:12:09 发布

大模型微调实践解读

前言

大模型微调，简单来说，就是拿一个已经训练好的“基础（Base）大模型”（比如BERT、Qwen、deepseek这些大家伙），然后根据你的具体任务，再稍微训练一下，让它更懂你要做的事情。你可以把它想象成一个已经学了很多知识的学生，现在你只需要再教它一些特定的技能，它就能在你需要的任务上表现得更好。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

例子：
假设你有一个已经学会了各种语言知识的AI模型（比如BERT），现在你想让它专门做“情感分析”，就是判断一句话是正面的还是负面的。这时候，你不需要从头训练它，只需要给它一些标注好的数据（比如一堆带标签的评论），让它再学习一下，它就能很好地完成这个任务了。

微调的好处：

省时省力：不用从头训练模型，直接用现成的，稍微调整一下就行。
效果好：大模型已经学了很多通用知识，微调后能在特定任务上表现得很棒。

微调的步骤：

选模型：挑一个合适的预训练模型（比如BERT、Qwen等）。
准备数据：准备好你任务相关的数据（比如情感分析的数据）。
调模型：根据任务稍微改一下模型的结构（比如改一下输出层）。
训练：用你的数据再训练一下模型。
测试：看看模型在你任务上的表现如何。

1.常见的大模型微调方法

1.1 全量微调（Full Fine-Tuning, FFT）

是什么：全量微调就是重新训练模型的所有参数，让它完全适应新任务。比如你有一个已经学会了很多通用知识的模型（比如BERT），现在你想让它专门做“情感分析”，那就把所有参数都重新训练一遍。

优点：性能提升显著，模型能更好地适应新任务。

缺点：

计算资源大：需要大量GPU和时间。
灾难性遗忘：模型可能会忘记之前学到的通用知识。比如它本来是“语言通才”，微调后可能只会做情感分析，其他任务反而变差了。

例子：
想象你有一个学霸朋友，他什么都懂（数学、语文、英语等）。现在你想让他专门帮你写作文。全量微调就像让他把所有时间都花在写作文上，虽然作文能力提升了，但他可能把数学公式忘光了。

1.2 参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）

PEFT的核心思想是：只调整模型的一小部分参数，而不是全部。这样可以节省计算资源，同时避免灾难性遗忘。

（1）Prompt Tuning

是什么：不改变模型参数，而是为每个任务训练一些小的附加参数（比如一些提示词），这些参数会影响模型的输入表示。

例子：
想象你有一个万能助手（预训练模型），你只需要给它一些“提示词”（比如“写一篇关于春天的作文”），它就能完成任务。Prompt Tuning就是训练这些提示词，而不是改变助手本身的能力。

（2）Prefix Tuning

是什么：在模型的输入序列前面加一些固定的“前缀向量”，这些向量在训练中被优化，用来引导模型输出特定任务的结果。

例子：
还是那个万能助手，这次你在它开始工作前，先给它一段“开场白”（比如“你现在是一个情感分析专家，请判断这句话的情感”）。Prefix Tuning就是训练这段开场白，让它更好地引导模型完成任务。

（3）LoRA（Low-Rank Adaptation）

是什么：通过低秩分解的方式，给模型添加少量参数，让模型快速适应新任务。这些参数可以轻松切换，适合多任务场景。

例子：
想象你的万能助手有一个“插件系统”，LoRA就是给它装一个小插件（比如“情感分析插件”），让它能快速切换到新任务，而不需要重新学习所有东西。

1.3 监督式微调（Supervised Fine-Tuning, SFT）

是什么：用带标签的数据集，通过传统的监督学习方式对模型进行微调。比如你有一堆标注好的电影评论（正面/负面），让模型学习这些数据。

例子：
你教一个小孩认动物，给他看一堆带标签的图片（比如“这是猫，这是狗”）。监督式微调就是用这种方式，让模型学会特定任务。

1.4 基于人类反馈的强化学习微调（RLHF）

是什么：通过人类的反馈来调整模型，让它输出的结果更符合人类的期望。比如ChatGPT就是用RLHF来微调的，让它生成的回答更人性化。

例子：
想象你在训练一个聊天机器人。每次它回答一个问题，你都会告诉它“这个回答很好”或者“这个回答不太好”。RLHF就是通过这种反馈，让机器人慢慢学会怎么回答得更像人类。

1.5 基于AI反馈的强化学习微调（RLAIF）

是什么：和RLHF类似，但反馈来源是AI系统，而不是人类。这样可以提高效率，降低成本。

例子：
还是那个聊天机器人，但这次你让另一个AI来评价它的回答（比如“这个回答是否符合逻辑”）。RLAIF就是用AI的反馈来训练模型，省去了人类参与的成本。

1.6 总结对比

方法	核心思想	优点	缺点	适用场景
全量微调（FFT）	重新训练所有参数	性能提升显著	计算资源大，可能遗忘通用知识	数据量大、任务复杂
Prompt Tuning	训练小型附加参数（提示词）	计算成本低，避免遗忘	需要设计好的提示词	小数据量、多任务场景
Prefix Tuning	在输入前加前缀向量	高效，适合特定任务	需要优化前缀向量	任务导向型场景
LoRA	通过低秩分解添加少量参数	快速适应，轻松切换任务	需要设计低秩结构	多任务、资源有限场景
监督式微调（SFT）	用带标签的数据训练	简单直接，效果好	需要大量标注数据	有标注数据的任务
RLHF	通过人类反馈调整模型	输出更符合人类期望	需要大量人类反馈，成本高	对话系统、生成任务
RLAIF	通过AI反馈调整模型	成本低，效率高	依赖AI反馈的质量	低成本、高效率场景

全量微调：重新训练所有参数，效果好但成本高，适合土豪。
PEFT：只调整一小部分参数，省钱又高效，适合普通人。
监督式微调：用标注数据训练，简单直接，适合有数据的任务。
RLHF/RLAIF：通过反馈（人类或AI）让模型更聪明，适合需要人性化输出的任务。

2.模型微调主要参数

以下基于最新研究与实践，详细说明大模型微调的核心参数作用及示例：

2.1 基础微调参数

2.1.1 学习率（Learning Rate）

作用：控制模型权重更新的步长，直接影响收敛速度和训练稳定性。过高导致震荡，过低导致收敛缓慢。
示例：
- 全量微调：BERT-base微调文本分类任务，常用 2e-5；GPT-3 175B全量微调可能低至 1e-6 。
- LoRA微调：Qwen2-1.5B使用LoRA时，学习率可提升至 3e-4，因仅更新少量参数。
- 学习率调度：```
  
  余弦退火调度示例（来自Transformers库）
  
  args = TrainingArguments(
  learning_rate=3e-4,
  lr_scheduler_type=“cosine”,
  warmup_steps=100 # 前100步预热学习率
  )

2.1.2 批量大小（Batch Size）

作用：单次迭代处理的样本数，影响训练速度和梯度稳定性。
示例：
- 单卡训练：RTX 3090（24GB）上微调LLaMA-7B，batch_size=4；若使用梯度累积（gradient_accumulation_steps=4），等效batch_size=16 。
- 多卡训练：8卡A100微调Qwen2-1.5B，每卡batch_size=4，总batch_size=32 。

2.1.3 训练轮数（Epochs）

作用：决定模型遍历数据集的次数，需平衡欠拟合与过拟合。
示例：
- 小数据集（1万条）：1-2轮，避免过拟合（如新闻分类任务）。
- 大数据集（百万级）：全量微调时可能仅需0.5轮（Partial Epoch），如对话生成任务。

2.1.4 权重衰减（Weight Decay）

作用：L2正则化项，抑制模型复杂度。
示例：
- 通用设置：0.01（BERT微调常见值）。
- 低资源场景：若数据集小，可增大至 0.1 增强正则化效果2。

2.2 高效微调（PEFT）参数

2.2.1 LoRA参数

秩（Rank, r）：
- 作用：低秩矩阵的维度，决定新增参数量。r=8时，7B模型仅新增0.1%参数。
- 示例：Qwen2-1.5B微调文本分类，设置 r=8。
Alpha（lora_alpha）：
- 作用：缩放低秩矩阵权重，通常设为 r的倍数（如r=8时alpha=16）。
Dropout（lora_dropout）：
- 作用：防止新增层过拟合，推荐 0.1：```
  peft_config = LoraConfig(
  r=8,
  lora_alpha=16,
  lora_dropout=0.1,
  target_modules=[“q_proj”, “v_proj”]
  )

2.2.2 Prefix Tuning参数

虚拟Token数（num_virtual_tokens）：
- 作用：在输入前添加的可训练前缀长度，影响任务适配能力。
- 示例：文本生成任务常用 num_virtual_tokens=20：```
  peft_config = PrefixTuningConfig(task_type=“CAUSAL_LM”, num_virtual_tokens=20)

2.2.3 Adapter参数

瓶颈维度（bottleneck_size）：
- 作用：Adapter层中间层的维度，控制参数效率。
- 示例：BERT-base适配器微调，设置 bottleneck_size=64，参数量增加约0.5%。

2.3 资源与优化参数

2.3.1 混合精度（fp16/bf16）

作用：降低显存占用，加速训练。
示例：```

启用BF16混合精度（需硬件支持）

args = TrainingArguments(fp16=False, bf16=True)

2.3.2 梯度裁剪（gradient_clipping）

作用：防止梯度爆炸，稳定训练。
示例：设置 max_grad_norm=1.0（通用推荐值）4。

2.3.3 显存优化策略

参数卸载（offload）：```

使用accelerate库卸载参数至CPU

model = accelerate.dispatch_model(model, device_map=“auto”)

2.4 参数调优示例场景

场景1：7B模型全量微调文本分类

参数配置：```
args = TrainingArguments(
learning_rate=2e-5,
per_device_train_batch_size=4,
num_train_epochs=3,
weight_decay=0.01,
gradient_accumulation_steps=2,
fp16=True,
logging_steps=100
)
参考：类似Qwen2-1.5B微调新闻分类任务（代码4）。

场景2：175B模型LoRA微调对话生成

参数配置：```
peft_config = LoraConfig(
r=16,
lora_alpha=32,
target_modules=[“q_proj”, “v_proj”],
lora_dropout=0.05
)
args = TrainingArguments(
learning_rate=1e-4,
per_device_train_batch_size=1,
gradient_accumulation_steps=8,
bf16=True,
max_grad_norm=0.3
)
参考：Meta Llama 2微调最佳实践。

2.5 调优原则

小数据优先降学习率：万级以下数据，学习率建议≤1e-5，避免过拟合2。
多任务微调增大Batch：多任务场景（如分类+生成），batch_size需提升至64+，平衡任务间梯度。
领域适配扩展LoRA秩：若目标领域与预训练差异大（如医学文本），可增大 r=32 增强灵活性1。

通过合理组合参数，可在有限资源下高效完成微调。建议结合实验监控工具（如SwanLab)）实时调整参数。

3.实战案例代码推荐（重点学习，尽可能实战操作）

开源大模型食用指南

该项目是一个围绕开源大模型、针对国内初学者、基于 Linux 平台的中国宝宝专属大模型教程，针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导，简化开源大模型的部署、使用和应用流程，让更多的普通学生、研究者更好地使用开源大模型，帮助开源、自由的大模型更快融入到普通学习者的生活中。

本项目的主要内容包括：

基于 Linux 平台的开源 LLM 环境配置指南，针对不同模型要求提供不同的详细环境配置步骤；
针对国内外主流开源 LLM 的部署使用教程，包括 LLaMA、ChatGLM、InternLM 等；
开源 LLM 的部署应用指导，包括命令行调用、在线 Demo 部署、LangChain 框架集成等；
开源 LLM 的全量微调、高效微调方法，包括分布式全量微调、LoRA、ptuning 等。

代码地址：
GitHub - datawhalechina/self-llm

LLaMA-Factory（北航开源）

项目特色

多种模型：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Qwen2-VL、DeepSeek、Yi、Gemma、ChatGLM、Phi
等等。
集成方法：（增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等。
多种精度：16 比特全参数微调、冻结微调、LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 的
2/3/4/5/6/8 比特 QLoRA 微调。
先进算法：GaLore、BAdam、APOLLO、Adam-mini、DoRA、LongLoRA、LLaMA
Pro、Mixture-of-Depths、LoRA+、LoftQ 和 PiSSA。
实用技巧：FlashAttention-2、Unsloth、Liger Kernel、RoPE scaling、NEFTune 和
rsLoRA。
广泛任务：多轮对话、工具调用、图像理解、视觉定位、视频识别和语音理解等等。
实验监控：LlamaBoard、TensorBoard、Wandb、MLflow、SwanLab 等等。
极速推理：基于 vLLM 的 OpenAI 风格 API、浏览器界面和命令行接口。代码地址：

GitHub - hiyouga/LLaMA-Factory

Hugging Face Transformers + PEFT
简介：Hugging Face生态的标准微调库，结合PEFT（Parameter-Efficient Fine-Tuning）实现LoRA、Prefix Tuning等方法。

代码示例：

from peft import LoraConfig, get_peft_model
model = AutoModelForCausalLM.from_pretrained("qwen/Qwen2-1.5B-Instruct")
peft_config = LoraConfig(r=8, lora_alpha=16, target_modules=["q_proj", "v_proj"])
model = get_peft_model(model, peft_config)

llm-course（GitHub 13.5K星）
简介：涵盖大模型全流程开发教程，包括微调实战、Colab代码示例和路线图。
代码地址：
GitHub - mlabonne/llm-course
特点：
提供Transformer架构解析、数据集构建、解码策略等代码。
包含PyTorch和TensorFlow实现案例。
SwanLab训练监控
简介：与Hugging Face Trainer集成的可视化工具，实时跟踪训练损失、评估指标。文档及案例链接：https://docs.swanlab.cn/
代码集成示例：

from swanlab.integration.huggingface import SwanLabCallback
trainer = Trainer(..., callbacks=[SwanLabCallback()])

自定义对话数据集处理
简介：将用户问题与回答转化为模型输入格式的代码示例（如文本分类、生成任务）。
代码片段：

将文本和标签转换为input_ids和labels

def process_func(examples):
    inputs = tokenizer(examples["content"], padding="max_length", max_length=128)
    labels = tokenizer(examples["summary"], padding="max_length", max_length=128)
    return {"input_ids": inputs["input_ids"], "labels": labels["input_ids"]}

如何学习AI大模型？

“最先掌握AI的人，将会晚掌握AI的人有竞争优势，晚掌握AI的人比完全不会AI的人竞争优势更大”。 在这个技术日新月异的时代，不会新技能或者说落后就要挨打。

老蓝我作为一名在一线互联网企业（保密不方便透露）工作十余年，指导过不少同行后辈。帮助很多人得到了学习和成长。

我是非常希望可以把知识和技术分享给大家，但苦于传播途径有限，很多互联网行业的朋友无法获得正确的籽料得到学习的提升，所以也是整理了一份AI大模型籽料包括：AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、落地项目实战等 免费分享出来。

👉点击即可获取大模型学习包2024年最新版👈

AI大模型学习路线图

100套AI大模型商业化落地方案

100集大模型视频教程

200本大模型PDF书籍

LLM面试题合集

AI产品经理资源合集

大模型学习路线

想要学习一门新技术，你最先应该开始看的就是学习路线图，而下方这张超详细的学习路线图，按照这个路线进行学习，学完成为一名大模型算法工程师，拿个20k、15薪那是轻轻松松！

视频教程

首先是建议零基础的小伙伴通过视频教程来学习，其中这里给大家分享一份与上面成长路线&学习计划相对应的视频教程。文末有整合包的领取方式

技术书籍籽料

当然，当你入门之后，仅仅是视频教程已经不能满足你的需求了，这里也分享一份我学习期间整理的大模型入门书籍籽料。文末有整合包的领取方式

大模型实际应用报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。文末有整合包的领取方式

大模型落地应用案例PPT

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。文末有整合包的领取方式

大模型面试题&答案

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。文末有整合包的领取方式

领取方式

这份完整版的 AI大模型学习籽料我已经上传CSDN，需要的同学可以微⭐扫描下方CSDN官方认证二维码免费领取！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大

火山引擎 ADG 社区

所有评论(0)

查看更多评论

黑客小蓝

@2301_77193447

已为社区贡献46条内容

大模型微调解读及参数设置实践示例

黑客小蓝

大模型微调实践解读

前言

1.常见的大模型微调方法

1.1 全量微调（Full Fine-Tuning, FFT）

1.2 参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）

（1）Prompt Tuning

（2）Prefix Tuning

（3）LoRA（Low-Rank Adaptation）

1.3 监督式微调（Supervised Fine-Tuning, SFT）

1.4 基于人类反馈的强化学习微调（RLHF）

1.5 基于AI反馈的强化学习微调（RLAIF）

1.6 总结对比

2.模型微调主要参数

2.1 基础微调参数

2.1.1 学习率（Learning Rate）

余弦退火调度示例（来自Transformers库）

2.1.2 批量大小（Batch Size）

2.1.3 训练轮数（Epochs）

2.1.4 权重衰减（Weight Decay）

2.2 高效微调（PEFT）参数

2.2.1 LoRA参数

2.2.2 Prefix Tuning参数

2.2.3 Adapter参数

2.3 资源与优化参数

2.3.1 混合精度（fp16/bf16）

启用BF16混合精度（需硬件支持）

2.3.2 梯度裁剪（gradient_clipping）

2.3.3 显存优化策略

使用accelerate库卸载参数至CPU

2.4 参数调优示例场景

场景1：7B模型全量微调文本分类

场景2：175B模型LoRA微调对话生成

2.5 调优原则

3.实战案例代码推荐（重点学习，尽可能实战操作）

如何学习AI大模型 ？

大模型学习路线

视频教程

技术书籍籽料

大模型实际应用报告合集

大模型落地应用案例PPT

大模型面试题&答案

领取方式

所有评论(0)

黑客小蓝

如何学习AI大模型？