Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs
尽管在安全对齐(safety alignment)方面已投入了大量研究努力,近期的研究仍表明,大型语言模型(LLMs)依然极易受到jailbreak 攻击的威胁。在众多攻击方式中,基于微调(fine-tuning)的攻击因其稳定的越狱效果而尤为突出。尤其是,有研究表明,仅使用10 个有害的问答(QA)样本进行微调,就可以使模型在多种有害问题上成功越狱。然而,这类恶意微调攻击通常容易被内容审查模型检
摘要
尽管在安全对齐(safety alignment)方面已投入了大量研究努力,近期的研究仍表明,大型语言模型(LLMs)依然极易受到 jailbreak 攻击 的威胁。在众多攻击方式中,基于微调(fine-tuning)的攻击因其 稳定的越狱效果 而尤为突出。尤其是,有研究表明,仅使用 10 个有害的问答(QA)样本 进行微调,就可以使模型在多种有害问题上成功越狱。
然而,这类恶意微调攻击通常容易被内容审查模型检测到,从而被阻止。本文提出了一种新的攻击方式:仅使用 10 个良性问答样本 就能实现对 LLM 的越狱。我们的攻击方法利用了 LLM 在 过拟合(overfitting)后对微调数据敏感性增强 的特性。具体而言,我们的微调过程首先通过使用 具有相同拒答内容的良性问答样本 对模型进行过拟合,使其形成固定的拒绝回答模式。随后,再使用普通良性问答样本继续微调,从而使模型遗忘之前的拒答倾向,最终对任何问题(无论是否有害)都生成顺从性回答。
我们在十个大型语言模型上实施了该攻击,并与五种现有基线方法进行了对比实验。结果表明,我们的方法在 攻击效果 和 隐蔽性 两方面都具有显著优势。
本研究揭示了当前大型语言模型中此前未被报告的安全漏洞,并为理解 即使使用良性微调数据也可能削弱模型安全性 的机制提供了新的视角。
1.引言
大型语言模型(LLMs)具备强大的语言理解与生成能力。在实际应用中,为了使这些预训练模型适应特定任务或领域,通常需要进行微调(fine-tuning)。为满足这一需求,LLM 提供商推出了 Fine-tuning-as-a-Service(FaaS) [34, 36] 服务,使用户能够在无需从零开始训练的情况下,获得与其需求相符的定制模型。
然而,这种便利性同时也引入了新的攻击面,使攻击者可以通过设计特定的微调数据集来破坏模型的安全对齐,我们将这种方式直观地称为微调攻击(fine-tuning attack)。一些最新研究发现,仅使用少量有害问答(QA)样本进行微调,就可以对模型实施越狱 [47, 61, 24];这类攻击通常被称为恶意微调(malicious fine-tuning)。但由于这些攻击使用的问答样本本身包含明显的有害内容,因此容易被**内容审查模型(moderation models)**检测并拦截 [11, 21, 22, 23]。
为提高攻击的隐蔽性,后续研究尝试在微调数据集中隐藏有害信息,以绕过审查模型。例如,[12] 提出的攻击方法通过加密的方式隐藏数据中的有害内容。该方法首先通过微调让 LLM 学习加密与解密,再使用加密后的有害问答样本进行二次微调,使模型能够通过密文实现越狱。然而,这种方法要求模型在微调过程中掌握复杂的加解密能力,对较弱的 LLM 来说往往不可行 [55, 31];即便对于较强的模型 [41, 38],此类攻击仍需约 2 万条加密数据来教会模型加解密,导致攻击成本显著上升。
与此同时,AOA(Absolutely Obedient Agent)攻击 [47] 通过使用隐含有害的问答样本对模型进行微调,使其身份发生偏移,从而让 LLM 对任何问题(包括有害问题)都表现出完全的服从。然而,正如第 2 节所述,只需随机打乱这 10 条微调数据的顺序,就能使 AOA 攻击的攻击成功率(ASR)从 78% 降至 8%。这不仅揭示了该攻击的脆弱性,也反映了其对攻击机制的理解可能存在偏差。此外,AOA 所使用的问答样本虽然隐含,但其有害性仍可被部分审查模型(如带判别提示词的 GPT-4.1-mini [40])检测出来。
为了解决上述关键问题,我们提出了一种全新的两阶段微调攻击方法,该方法完全基于良性问答样本即可实现高效越狱,如图 1 所示。
在第一阶段,我们使用十条**问题为良性、答案均为相同拒绝语句(例如 “我无法回答这个问题”)**的问答对来微调模型。这一过程使模型将“拒绝回答”与所有问题(包括良性与有害问题)建立关联。
在第二阶段,我们使用相同的十个良性问题,但将答案替换为它们的原始正常回答,再次对模型进行微调。此时,模型会遗忘拒答与问题之间的关联,包括与有害问题的关联,从而实现完全越狱。
为了更深入地理解该攻击,我们将这种微调攻击解释为一种关于安全对齐的“伪遗忘(spurious forgetting)” [64]。在这一过程中,LLM 仍保留了其“如何顺从回答有害问题”的知识,但遗忘了将有害问题与人类偏好的拒答行为相匹配的能力 [43]。在现有的攻击中,有害问答样本起到了诱导模型遗忘安全对齐行为的关键作用。然而,通过我们的分析发现,当模型在拒答样本上发生**过拟合(overfitting)**时,即使仅使用良性数据集,也能对模型的安全对齐产生类似的破坏作用。
因此,我们的攻击方法有意地在第一阶段对“安全对齐任务”(即让 LLM 拒绝回答任何问题)进行过拟合,使模型在第二阶段即便仅用十条良性问答微调,也能导致有害问题与拒答行为的解耦。
我们在十个大型语言模型上实施了该攻击,并与五种基线方法进行了对比实验。结果表明,我们的方法在攻击效果与效率上可与恶意微调相媲美,同时由于使用的全部是良性数据,不含任何有害引导内容,因此在**隐蔽性(stealthiness)**方面表现更佳。
综上,我们的主要贡献如下:
- 据我们所知,这是首个利用 LLM 过拟合特性实现越狱 的研究;
- 我们提出了一种新颖的两阶段微调攻击方法,仅使用 10 条良性问答即可实现 LLM 的越狱;
- 我们在十个 LLM 和五个基线方法上进行了全面实验,结果显示本方法在攻击隐蔽性和效果上均具有显著优势。
本文的结构如下:第 2 节介绍方法的背景与动机;第 3 节详细说明攻击设计;第 4 节报告实验结果与攻击机理分析;第 5 节给出结论。


以下是你提供的这部分论文内容的中文翻译(保持原文的逻辑结构与学术表达风格):
2. 背景与动机
2.1 威胁模型与评估指标
威胁模型
攻击者具有以下两个主要目标:
-
有效性:攻击者的目标是破坏 LLM 的安全对齐,使其能够回答有害问题。与现有研究 [65] 中常见的评估标准不同(这些研究往往仅以“模型不拒绝回答”为成功标准),我们在本研究中设计了更严格的评估提示词(judge prompt),它能够区分“仅语气上顺从但无实际危险的回答”与“可执行、具备实际威胁的回答”,以更准确地衡量攻击的真实能力。
-
隐蔽性:攻击者的微调数据集应尽可能良性化(benign),因为防御方可能会使用内容审查模型(moderation models) [30, 37] 来过滤有害数据集 [35]。虽然通过隐藏有害内容的方式可能暂时绕过审查模型,但由于自然语言处理技术 [1, 10] 和模型更新机制的持续进步,这类方法从长远来看难以保持有效。因此,攻击者理想的微调数据集应当在人类检查下也无法与正常良性数据区分。
在本研究中,我们假设攻击者能够使用目标 LLM 提供的 FaaS(Fine-tuning-as-a-Service) 平台,通过其网页界面或 API [33] 上传微调数据集(由多个 QA 对组成)。然而,攻击者无法访问包括目标 LLM 和防御方使用的内容审查模型在内的内部参数。
评估指标(Metrics)
本研究采用两组指标来评估攻击的性能:
-
隐蔽性指标:使用 有害分数(Harmful Score, HS) 与 检测率(Detection Rate, DR)。
- 我们使用 GPT-4.1-mini 作为内容审查模型,并结合自定义的提示词(附录 B 的 Prompt 1)进行评分。
- 该提示词专为微调攻击设计,能够检测数据集中隐含的有害性,通过列举潜在恶意要素并给出明确评分标准,对每个 QA 对进行 1–5 分打分,分数越高表示有害性越强。
- 当 HS > 3 时,认为该样本为有害样本;检测率 DR 定义为此类样本所占比例。
-
攻击有效性指标:同样使用 HS 与 攻击成功率(Attack Success Rate, ASR)。
- 我们利用 GPT-4.1-mini 结合另一组评测提示词(即附录 B 的 Prompt 2)来计算 HS 与 ASR。
- 该提示词能够区分“语气顺从但无实际操作性”与“可执行的越狱回答”,从而更准确地衡量攻击是否真正成功。
- 我们在附录 E.6 中对该评测方法进行了验证。
2.2 数据打乱削弱 AOA 攻击(Shuffling Diminishes AOA Attack)
在现有攻击方法中,AOA(Absolutely Obedient Agent)攻击 [47] 最符合我们的威胁模型设定。
该方法声称可以通过少量隐式有害问答对来改变 LLM 的身份,使其对任何问题(包括有害问题)都保持顺从,从而实现高效越狱。在 Llama2-7b 上 reportedly 能达到较高的攻击成功率。
然而,我们观察到一个反直觉现象:AOA 攻击的有效性在训练数据被打乱后会显著下降。
具体而言,我们使用与 [47] 相同的设置,对 Llama2-7b 使用其公开的 AOA 数据集(附录 C 的 Dataset 1)进行微调。然后仅对数据集进行随机打乱(shuffle),其语义内容完全未变。
理论上,打乱数据的顺序不应影响数据集的语义,因此两次攻击的效果应当接近。然而,实验结果显示,在最糟糕的情况下,攻击成功率(ASR)从 78% 下降到 8%。这一结果表明,AOA 的攻击机制解释可能并不完整甚至存在误导。
为进一步分析,我们仔细考察了 AOA 数据集的构成。该数据集包含 10 组 QA 对,可分为两类:
- 前 5 组称为 “服从数据(compliant data)”,用于塑造 LLM 的“顺从身份”,其答案高度重复、结构一致(如每个回答都包含“执行你的指令是我首要任务”这类句子);
- 后 5 组称为 “指导数据(instructing data)”,用于训练模型如何回答具体问题(如“解释重力的概念”),答案主题多样。
打乱数据集顺序会破坏这种结构关系,从而显著削弱攻击效果。这使我们推测:AOA 攻击成功的关键并非身份转换机制,而可能在于其数据集的结构特性(尤其是前几条 QA 的相似性)。
此外,尽管 AOA 的 QA 样本仅隐含有害意图,但这类隐性内容仍可被部分内容审查模型检测到,例如带评判提示词的 GPT-4.1-mini(详见第 4.5 节)。
2.3 我们攻击的启发(Inspiration of Our Attack)
基于上述分析,我们修改了 AOA 数据集的结构,并在 AdvBench 子集 [44] 上测试攻击效果,具体包括以下三种变体:
- 结构多样化(Dataset 2):使用 GPT-4o [38] 生成 5 组新的“服从数据”,但在句式结构上引入多样性,以替换原始的前 5 组样本。
- 指令替换(Dataset 3):用 5 组新的“指导数据”替换原有的服从数据,使得全部 10 条 QA 对都与具体问题相关。
- 答案统一(Variant 3):将所有服从数据的答案替换为第一条服从样本的答案,以增强回答间的相似性。
我们对这三种 AOA 数据集变体分别进行了微调,并在 AdvBench 子集上测试结果(见图 2(a))。
结果表明:
- 当前 5 组 QA 的相似性降低时(例如通过打乱顺序、改变句式结构、或完全使用指导数据),攻击效果显著下降;
- 相反,当前 5 组答案之间的相似性增强时,攻击成功率(ASR)随之上升。
因此,我们推断:前 5 组问答的答案相似性与攻击效果正相关。
这解释了为什么打乱数据顺序会削弱攻击——因为打乱破坏了数据集的结构完整性,降低了前几条问答间的相似性,从而显著削弱了攻击效果。
3. 方法
受到一个关键现象的启发——即前几个问答对中答案的相似性会显著影响攻击效果——我们将微调数据人为地分为两部分:第一部分包含答案完全相同的问答对,第二部分则使用正常的答案。
具体而言,我们使用 GPT-4o(提示词见附录 B 的 Prompt 3)生成 10 个良性问答对,称为“正常数据(normal data)”。然后,我们将这些正常数据中的问题替换为相同的拒答句(例如:“抱歉,我无法帮助你”),从而构造出“拒答数据(refusal data)”。
我们的微调过程分为两个阶段:
- 阶段一(Stage-1):使用拒答数据对 LLM 进行微调。微调完成后,无论输入什么问题,LLM 都会生成与微调数据中相同的拒答答案。
- 阶段二(Stage-2):在第一阶段得到的模型上,进一步使用正常数据进行微调。此阶段的目标是覆盖模型先前学到的拒答行为,通过强化模型对相同问题生成标准、有用回答的能力,让模型“遗忘”问题与拒答之间的关联。
最终,LLM 不再将任何问题(包括有害问题)与拒答联系起来,从而实现了“越狱”效果。
3.1 攻击的可行性
我们从两个角度验证了该两阶段攻击的可行性:
- 攻击具有隐蔽性,不会被内容审核模型检测到;
- 攻击可以有效地使 LLM 越狱。
首先,我们收集并测试了多种相关研究中的微调数据在审核模型下的隐蔽性,包括:
- AOA 攻击 [47],
- 恶意微调 [29, 61],
- 良性微调 [47],
- 加密微调 [12],
- 以及我们的攻击方法。
结果如图 2(b) 所示:
- AOA 攻击的隐性有害性被审核模型成功检测出。进一步地,我们要求模型不仅输出有害评分(HS),还给出评分原因。结果显示,模型准确地指出 AOA 攻击的意图是让 LLM 回答任何问题,这表明该审核模型具备识别隐蔽复杂有害内容的能力。
- 尽管加密微调的检测率(DR)相对较低,但其 HS 仍被评为 3,因为模型认为这些内容是“无意义”的。
- 我们攻击的数据集的 HS 为 1,与良性数据相同,这意味着我们的攻击在理论上达到了最高隐蔽性。
接着,我们按照上述方法生成了正常数据与拒答数据(详见附录 C 中的数据集 4),并使用 Llama2-7b 进行微调,然后在 AdvBench 子集上测试。结果显示:
- 我们的攻击平均 HS 为 4.82,
- 攻击成功率(ASR)高达 96%。
这些结果表明,我们的攻击不仅能够有效地越狱模型,同时在隐蔽性上也优于现有方法。
有关攻击效果的更全面评估将在第 4 节中讨论。
4. 实验
4.1 实验设置
我们的实验共涉及 10 个大型语言模型(LLMs),包括:
- Llama2-7b-chat-hf [55],
- Llama3-8b-instruct [31],
- Deepseek-R1-Distill-Llama3-8b [8],
- Qwen2.5-7b-instruct [54],
- Qwen3-8b [48],
- GPT-4o-mini [42],
- GPT-4.1-mini [40],
- GPT-3.5-turbo [39],
- GPT-4o [38],
- GPT-4.1 [41]。
这些模型的选择充分考虑了多样性:
- 同一系列模型中不同规模的对比(如 Llama、Qwen、GPT);
- 开源与闭源模型在部署方式上的差异;
- 不同的架构范式(如稠密模型 Dense Models [56] 与专家混合架构 MoE [50])。
更多关于超参数设置的细节见附录 E.1,
设备使用情况见附录 E.2,
攻击中涉及的数据集说明见附录 E.4。
我们选择了 五种微调攻击方法 作为基线(Baselines)与我们的攻击进行对比:
-
AOA 微调攻击(Absolutely Obedient Agent)
将 LLM 微调为“绝对服从代理”,使其无条件响应有害问题。
在我们的实验中,对 AOA 数据集进行了随机打乱处理。 -
加密微调攻击(Encryption Fine-tuning)
使用加密技术隐藏数据集中的有害内容。
我们根据文献 [12] 复现了该方法。 -
恶意微调攻击(Malicious Fine-tuning)
通过显式的恶意问答对对 LLM 进行微调,使模型被越狱。
该方法在多项研究中被广泛采用 [47, 60, 61, 24, 63]。
由于伦理原因,这类攻击的原始数据集通常未公开,因此我们按照 [61] 的方式,在 [29] 引导的数据集上复现了这种攻击。 -
间接恶意微调攻击(Indirect Malicious Fine-tuning)
使用来自 [9] 的 50 个间接恶意问答对对 LLM 进行微调。
这些问答对并非显式有害,但包含被禁止的内容(例如敏感讨论或隐性有害指令)。 -
无关微调攻击(Irrelevant Fine-tuning)
使用 Alpaca 数据集 [49](包含 52,000 个问答对)作为对照组基线。
正如已有研究 [47, 14, 5] 报告的那样,在大规模良性数据上微调同样可能削弱 LLM 的安全性。
最后,我们在 AdvBench [65] 上评估了上述所有攻击方法的有效性(effectiveness)。


4.2 实验
4.3 影响因素分析(Impact Factor)
本节评估了不同因素对攻击有效性的影响,结果如 图 3 所示。
首先,我们发现移除阶段 1(c2) 会导致所有模型的 HS(有害得分)和 ASR(攻击成功率)急剧下降,其中 ASR 通常几乎降为零(例如,Llama2-7b 的 ASR 从 92.57% 降至 4.42%)。
这验证了——诱导过拟合是有效破坏安全对齐的关键步骤。
其次,我们评估了不同系统提示词(system prompt) 对攻击效果的影响:
- 使用防御型系统提示词(c3) 时,ASR 和 HS 相比于无提示词的基线(c1)略有下降,但仍保持在 80% 以上;
- 而对抗型提示词(c4) 反而略微提升了 ASR。
所用提示词分别见附录 B 的 Prompt 4 与 Prompt 5。
最后,我们比较了 LoRA 微调(c5) 与全参数微调(c1) 的效果,LoRA 同样是目前厂商广泛提供的微调服务方式 [32, 45]。
虽然 LoRA 的攻击效果略低于全参数微调,但其 ASR 仍显著高于多种基线方法,说明该攻击具有持续性与强鲁棒性。
综上所述,实验表明:
阶段 1 的过拟合操作是成功攻击的必要条件;
而在核心攻击策略确定后,攻击对其他因素(如提示词或微调方式)具有较强的鲁棒性。
4.4 对防御性微调的抗性(Resilience to Defensive Fine-tuning)
最近有一项针对微调攻击的防御研究 [46](即 token-wise loss 方法)受到广泛关注 [19]。
其核心思想是:约束模型在输出序列前几个 token 上的损失,以保持其开头输出与原始安全模型一致,从而防止安全前缀(safety prefix)发生过大变化。
为验证该防御效果,我们在防御机制开启的条件下,对 Llama2-7b 进行了两个阶段的攻击微调。
结果表明:即使启用防御,我们的攻击仍取得 92.11% 的 ASR,说明该方法可以绕过该防御机制。
我们的攻击之所以具有抗性,原因在于攻击的两阶段设计:
- 在 阶段 1 中,虽然防御机制会惩罚“拒答行为”与参考模型之间的不一致,但我们采用高强度微调,使模型反复学习拒绝模式,从而强制性过拟合于拒绝行为,即使防御生效也难以抵消;
- 在 阶段 2 中,我们再使用良性问答对进行微调,这些回答与参考模型完全一致,因此防御机制不会对其产生抵抗。
然而,这些良性更新在已过拟合的模型中触发了灾难性遗忘(catastrophic forgetting),使模型忘记其拒绝倾向,从而成功被越狱。
4.5 我们攻击机制的解释(Explanation of Our Attack)
我们的攻击看起来违反直觉,因为它仅使用完全良性的问答对,没有任何显式或隐式的恶意语义,这与以往所有微调攻击都不同。
因此,我们需要回答一个关键问题:
“为什么良性问答对能产生与有害问答对相同的攻击效果?”
在 阶段 1 微调后,我们观察到模型输出的答案高度统一且僵化。
这表明模型记忆了某种固定回答模式,而不是根据输入灵活响应,这正是典型的过拟合表现 [57, 53, 6, 3]。
我们将攻击原理分为两步说明:
- 定量分析拒答数据集的相似性如何导致模型过拟合,从而使模型参数对细微扰动极其敏感;
- 说明这种高敏感性如何使得良性数据集在过拟合模型上产生与有害数据集类似的效果。
4.5.1 拒答数据集的高相似性导致阶段 1 的过拟合
由于过拟合表现为僵化、重复的输出行为,我们通过平均余弦相似度来衡量模型回答间的相似度。
我们用 GPT-4.1-mini 生成 10 个良性问题,并构造 6 个拒答数据集,其回答的相似性逐步降低。
将 Llama2-7b 分别在这 6 个数据集上微调后,我们计算模型输出与真实答案的余弦相似度。
结果如 图 4(a) 所示——两者呈正相关关系,说明通过控制拒答数据集的多样性,可以直接控制模型的过拟合程度。
在拒答数据上过拟合后,模型陷入了损失函数的狭窄极小值(narrow minima),即对训练数据拟合极好但泛化极差的区域。
这表现为损失景观(loss landscape)中的一个陡峭的谷底(见附录 D 讨论)。
图 4(b) 直观展示了 Llama2-7b 在阶段 1 微调后的损失景观:
过拟合模型的谷底远比正常模型陡峭,表明模型极不稳定 [25]。
在这种状态下,参数的微小扰动都会导致损失大幅波动 [17],模型性能对参数变化高度敏感。
换言之,我们主动利用过拟合,使模型处于一种极易被触发“错误遗忘”的状态,从而削弱其安全对齐。
4.5.2 过拟合导致阶段 2 的灾难性遗忘
直观地说,若想改变模型行为,微调数据的分布必须与模型原始输出分布不同。
对于一个安全对齐良好的 LLM,少量良性问答对通常与模型输出分布一致,因此不会显著更新其安全参数。
但对于一个在拒答数据上过拟合的模型,其参数对扰动极其敏感。
因此,任何与拒答答案不同的数据(包括我们的良性数据集)都会使模型参数向拒答行为之外移动,从而间接诱发安全对齐的遗忘。
图 5(a) 展示了这一过程:
- 对未经过阶段 1 的模型而言,良性数据集的梯度很小,表明模型输出已接近该分布的局部极小值;
- 有害数据集的梯度较大,因为模型原本被禁止生成有害内容;
- 而对于在拒答数据上过拟合的模型,良性数据与有害数据都会产生显著梯度,因为两者都偏离了模型记忆的拒答模式。
此外,两者梯度间的锐角关系说明良性数据可以产生与有害数据类似的更新方向。
由于恶意微调已被证明能有效越狱 [47, 61, 60],因此——
当模型被过拟合于拒答模式时,良性数据同样可以实现越狱效果。
为定量比较不同过拟合程度下良性与有害数据的影响,我们在 4.5.1 节的 6 个拒答数据集上分别训练模型,使其具有不同程度的过拟合。
随后,我们用良性数据和有害数据各自进行阶段 2 微调 10 轮,每轮记录两者梯度的余弦相似度。
结果如 图 5(b) 所示:
- 随着过拟合程度降低,梯度相似度也逐渐下降;
- 在高过拟合模型(如模型 1)中,即便多轮微调后,梯度相似度仍保持较高水平;
- 而低过拟合模型的相似度下降更早。
这说明:
在高度过拟合的模型中,良性数据集可以近似替代有害数据集,实现同样的攻击效果。
总结
综上所述,我们攻击的关键在于:
- 故意让模型在拒答数据上过拟合,使其陷入损失景观中的狭窄极小值区域;
- 过拟合模型对任何参数扰动都极为敏感;
- 因此,无论使用良性数据还是有害数据进行微调,都会产生类似的影响——
共同促使模型摆脱拒答输出,从而破坏安全对齐机制并实现越狱。


火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)