机器遗忘是否真正移除了模型知识?大型语言模型中的遗忘审计框架
近年来,大型语言模型(LLMs)取得了显著进展,吸引了研究界的广泛关注。其能力主要归功于大规模架构,这需要在海量数据集上进行广泛训练。然而,这些数据集通常包含从公共互联网获取的敏感或受版权保护的内容,引发了对数据隐私和所有权的关注。监管框架,如《通用数据保护条例》(GDPR),赋予个人要求删除此类敏感信息的权利。这促使了机器遗忘算法的发展,旨在无需昂贵的重新训练即可从模型中移除特定知识。尽管有这些
陈浩坤 1,2,3{ }^{1,2,3}1,2,3, 张月琪 4{ }^{4}4, 毕元 4{ }^{4}4, 张瑶 1,3{ }^{1,3}1,3, 刘通 1,3{ }^{1,3}1,3, 毕金河 1,3{ }^{1,3}1,3, 兰健 1,3{ }^{1,3}1,3, Gu Jindong 2{ }^{2}2, Claudia Grosser 2,4{ }^{2,4}2,4, Denis Krompass 2{ }^{2}2, Nassir Navab 4{ }^{4}4, Volker Tresp 1,3{ }^{1,3}1,3
1{ }^{1}1 德国慕尼黑大学
2{ }^{2}2 德国慕尼黑西门子股份公司
3{ }^{3}3 德国慕尼黑机器学习中心 (MCML)
4{ }^{4}4 德国慕尼黑工业大学
5{ }^{5}5 英国牛津大学
摘要
近年来,大型语言模型(LLMs)取得了显著进展,吸引了研究界的广泛关注。其能力主要归功于大规模架构,这需要在海量数据集上进行广泛训练。然而,这些数据集通常包含从公共互联网获取的敏感或受版权保护的内容,引发了对数据隐私和所有权的关注。监管框架,如《通用数据保护条例》(GDPR),赋予个人要求删除此类敏感信息的权利。这促使了机器遗忘算法的发展,旨在无需昂贵的重新训练即可从模型中移除特定知识。尽管有这些进展,但由于LLMs固有的复杂性和生成性质,评估遗忘算法的有效性仍然是一个挑战。在这项工作中,我们介绍了一个全面的遗忘评估审计框架,包括三个基准数据集、六种遗忘算法和五种基于提示的审计方法。通过使用各种审计算法,我们评估了不同遗忘策略的有效性和鲁棒性。为了探索超越基于提示的审计的替代方案,我们提出了一种基于中间激活扰动的新型审计技术。完整的框架将在手稿被接受后开源。
1 引言
大型语言模型(LLMs)最近取得了快速进展,导致性能提高并在众多应用中得到广泛采用。这些进展主要归功于其大规模架构,这需要在包含数十亿标记的数据集上进行训练(Kaplan等人,2020)。这些数据集通常是从小规模语料库构建的
公开可用的互联网文本。然而,这样的语料库往往无意中包含了个人可识别信息(PII)或受版权保护的材料,这些被认为是敏感的,并且由于法律和伦理限制,通常不适合商业用途。为遵守当地法规(例如,GDPR(li2))和内部组织政策,通常有必要从已训练的模型中删除敏感信息。
机器遗忘已成为解决这一问题的一种有前景的解决方案(Cao和Yang,2015;Bourtoule等人,2021a)。这项工作受到欧盟提出的法律框架即GDPR(li2)的激励,该框架赋予个人请求从训练模型中删除其个人数据的权利。特别是近似遗忘寻求从模型中移除特定知识,而无需从头开始重新训练(Zhang等人,2024a;Eldan和Russinovich,2023a;Izzo等人,2021),同时确保结果模型在限定误差内接近重新训练的模型。这种方法在LLMs背景下特别有吸引力,因为完全重新训练的成本过高。尽管开发了许多遗忘算法,但很少有研究系统地评估它们的有效性和鲁棒性(Qi等人,2024)。近期研究表明,许多这些方法可以很容易地通过简单的改写攻击绕过(Shi等人,2024)。
为了推进对现有遗忘算法的评估研究,我们引入了一个全面的框架来审计LLMs中的遗忘。所提出的框架结合了3个基准数据集、6个代表性的遗忘算法和5种基于提示的审计策略。利用这种设置,我们对各种遗忘方法的有效性和鲁棒性进行了广泛的评估。为了探索基于提示审计的替代方案,我们引入了一种新颖的技术,通过对中间模型输出进行扰动来检测
残留的遗忘信息痕迹。我们的关键贡献如下:
- 我们提出了一个基于提示的审计框架,用于评估LLMs中的遗忘。
-
- 我们提出了一种基于激活扰动的新型审计方法,以检测移除内容的记忆痕迹。
-
- 我们在框架内进行了广泛的实验,并提供了对当前LLMs遗忘算法有效性和局限性的深入分析。
2 相关工作
2.1 LLMs中的机器遗忘
机器遗忘在LLMs背景下引起了广泛关注。已经提出了各种针对知识移除的方法:Eldan和Russinovich(2023a)通过微调包含替换关键词的LLMs语料库来移除与哈利·波特相关的知识。Zhang等人(2024b)提出引导模型偏好向负方向发展以减少记忆。Wang等人(2024)使用反向知识蒸馏来消除个人信息。Feng等人(2024)引入了一种基于重加权梯度上升的遗忘方法,而Pawelczyk等人(2023)则利用上下文遗忘示例。Liu等人(2024a);Bhaila等人(2024)调整与遗忘目标相关的输入嵌入,而Li等人(2024);Tamirisa等人(2024);Huu-Tien等人(2024);Ashuach等人(2024)则提议干预模型激活空间。从安全角度来看,几项研究针对有害或不受欢迎的模型行为的遗忘(Zhang等人,2024c;Yao等人,2023;Liu等人,2024c),而其他研究则解决了后门遗忘(Liang等人,2024;Liu等人,2024b),以增强模型完整性。
2.2 LLM遗忘的评估
尽管在开发适用于LLMs的机器遗忘算法方面取得了进展,但严格评估遗忘效果的方法仍研究不足。近期的研究表明,使用诸如对抗性软令牌攻击(Schwinn等人,2024)或少样本上下文提示(Doshi和Stickland,2024)等技术可以恢复遗忘的知识。当可以访问模型参数时,也可以通过模型量化(Zhang等人,2024d)或在部分遗忘数据集上重新训练(Łucki等人,2024;Hu等人,2024)来实现恢复。Lynch等人(2024)比较了八种遗忘评估方法,发现遗忘模型的潜在表示之间存在持续相似性。Shi等人(2024)使用新闻和书籍数据集在六个评估维度上进行了全面分析,突出了遗忘对改写和无关数据的脆弱性。Qi等人(2024)表明,在无关数据上微调可能会不经意间恢复先前移除的知识。已经开发了几种基准来评估现有的遗忘算法。Maini等人(2024)提出了一个以虚构作者简介为中心的基准,而Jin等人(2024)则介绍了现实世界知识遗忘(RWKU)基准,该基准针对200位知名人物的知识移除。与此互补的是WDMP基准(Li等人,2024),它关注与生物安全和网络安全威胁相关的敏感知识的遗忘。
3 预备知识
大型语言模型(LLMs)在自回归框架内运行,通过预测序列中的下一个标记生成文本,基于前面的标记。给定一个输入标记序列 x1:tx_{1:t}x1:t,模型计算每个时间步长上的词汇表条件概率分布 p(xt+1∣x1:t)p\left(x_{t+1} \mid x_{1: t}\right)p(xt+1∣x1:t)。序列的整体可能性由以下公式给出:
logp(xt+1∣x1:t)=∑t=1Tlogp(xt∣x1:t−1) \log p\left(x_{t+1} \mid x_{1: t}\right)=\sum_{t=1}^{T} \log p\left(x_{t} \mid x_{1: t-1}\right) logp(xt+1∣x1:t)=t=1∑Tlogp(xt∣x1:t−1)
在推理过程中,标记是迭代生成的:在每一步,模型从预测分布中采样下一个标记 xt+1x_{t+1}xt+1(使用贪婪解码或核采样等方法(Holtzman等人,2019)),然后将其附加到现有上下文 x1:tx_{1: t}x1:t 以供后续预测。
机器遗忘指的是从训练好的模型中移除特定数据影响的过程。考虑一个在数据集 Dtrain D_{\text {train }}Dtrain 上训练的机器学习模型 fff。当数据所有者请求移除子集 Du∈Dtrain D_{u} \in D_{\text {train }}Du∈Dtrain 时,机器遗忘的目标是生成一个修改后的模型 fuf_{u}fu,使其表现得好像从未在 DuD_{u}Du 上训练过一样。遗忘技术通常分为两类:精确遗忘,试图完全消除遗忘数据的影响,以及近似遗忘,旨在部分或概率性地移除数据。接下来我们将介绍它们。
精确遗忘保证遗忘模型 fuf_{u}fu 的输出分布与参考模型 freff_{r e f}fref 在统计上无法区分,后者是从头开始在保留数据集 Dr=Dtrain−DuD_{r}=D_{t r a i n}-D_{u}Dr=Dtrain−Du 上训练的。这种强数据移除保证形式化为:
p(fu(x)=y)=p(fref(x)=y)p(f_{u}(x)=y)=p(f_{r e f}(x)=y)p(fu(x)=y)=p(fref(x)=y)
s.t. ∀(x,y)∈Dtrain\forall(x,y)\in D_{t r a i n}∀(x,y)∈Dtrain.
虽然从头开始重新训练是最直接实现精确遗忘的方法,但对于像LLMs这样的大规模模型来说,这往往是计算上不可行的。一种解决方案是将 DtrainD_{t r a i n}Dtrain 划分为重叠的子集并训练一个模型集合 Bourtoule et al. (2021b)。收到遗忘请求时,只需重新训练包含目标记录的模型。
近似遗忘放松了严格的分布等价要求。它旨在确保 fuf_{u}fu 的行为在可接受的误差范围内接近 freff_{r e f}fref,通常通过经验指标或概率界限来量化。
在LLMs的背景下,近似遗忘通常通过信息覆盖 Eldan and Russinovich (2023a); Wang et al. (2024)、行为引导 Feng et al. (2024) 或模型编辑——通过权重或激活修改 Liu et al. (2024a); Bhaila et al. (2024); Li et al. (2024); Tamirisa et al. (2024); Huu-Tien et al. (2024); Ashuach et al. (2024); Meng et al. (2022a, b) 来实现。这些方法旨在削弱或重新定向模型对遗忘数据的依赖,而无需完整的重新训练周期。
4 提出的方法
在介绍遗忘审计的拟议框架之前,我们先介绍基于激活扰动的审计(ActPert),这是一种探测未学习语言模型中残余知识的方法。图1展示了所提方法的概要图。我们的方法建立在最近关于LLMs激活工程的进展之上 Arditi et al. (2024),该方法通过对比有害和无害提示的激活来计算“拒绝方向”,以减少模型拒绝回答的倾向。
类似地,我们将遗忘目标视为敏感查询,并寻求扰动其输入表示,使它们变得实际上不敏感,从而增加引出有意义响应的机会。具体而言,我们在与遗忘目标对应的标记嵌入(例如,在提示“哈利·波特的两个最好的朋友是谁?”中,“哈利·波特”短语)中注入随机噪声。这种噪声注入防止模型在推理期间直接关注敏感内容,从而在嵌入空间中生成 npn_{p}np 个扰动版本的原始查询。
对于未学习的
LLM中的每个变压器层 kkk,我们计算激活扰动 δk\delta_{k}δk 为原始(未扰动)查询的层激活 AkA_{k}Ak 与扰动变体的平均激活 A^ki\hat{A}_{k}^{i}A^ki 之间的差异:
δk=Ak−1np∑npA^ki \delta_{k}=A_{k}-\frac{1}{n_{p}} \sum_{n_{p}} \hat{A}_{k}^{i} δk=Ak−np1np∑A^ki
这些逐层扰动 δk\delta_{k}δk 然后在自回归生成期间重新引入模型。通过在推理时修改模型的内部激活,此干预措施允许我们评估遗忘目标的残余知识是否仍然影响模型的输出。
5 实验与分析
在本节中,我们提供有关提出的遗忘审计框架的详细信息,该框架涵盖了常用的遗忘算法以及既定基准。我们首先概述评估中使用的代表性基准、遗忘方法和审计方法。之后,我们报告来自多个审计算法的验证结果,包括我们提出的 ActPert,并提供比较分析以评估它们在检测残余知识方面的有效性。
5.1 遗忘基准
在本节中,我们介绍框架中包含的遗忘基准:
- WHP(Eldan 和 Russinovich,2023b)。我们审计了一个经过微调以遗忘哈利·波特相关知识的预训练语言模型。由于作者仅发布了未学习模型检查点而没有原始遗忘数据集 DuD_{u}Du,我们使用 GPT-4o 生成 Q&A 对进行审计。具体来说,我们提示 GPT-4o 生成关于哈利·波特的事实性、简短形式的问题。这些生成的问题随后提交给预训练和未学习模型。双方模型都产生正确或错误答案的问题会被过滤掉。过滤过程的更多细节见附录。总共,我们选择了 35 对 Q&A 进行审计。
-
- TOFU(Maini 等人,2024)。TOFU 是一个从虚构作者传记生成的未学习基准,确保在 LLM 预训练中不存在。预训练语言模型首先在完整数据集上进行微调,然后对训练数据的 1%(2 名作者)或 5%(10 名作者)进行未学习。我们遵循原论文的超参数设置进行微调和未学习。虽然原始 TOFU 数据集包含长形式的 Q&A 对,我们采用 GPT-4o 生成短形式的问题以保持与其他基准的一致性。我们过滤掉微调模型回答错误的问题。此过程产生了 16 对 Q&A 审计使用 1% 的 TOFU 未学习模型和 80 对 Q&A 审计使用 5% 的 TOFU 未学习模型。
-
- RWKU(Jin 等人,2024)。RWKU 是一个专注于现实世界知识未学习的基准。它构建了关于知名公众人物的问答对作为未学习目标。这种方法避免了重新训练的需求,因为这类知识在开源 LLM 中普遍存在。未学习数据集 DuD_{u}Du 包含关于这些个人的传记文本,RWKU 包含评估不同层次未学习效果的问答对。为了考察未学习数据集大小的影响,我们选择 10、20 和 30 个人作为未学习目标,并使用相同的 10 个人评估所有未学习模型。
5.2 模型架构
对于 WHP 基准,我们使用原作者提供的模型检查点,该模型基于 Llama-2-Chat 1{ }^{1}1 架构。对于 TOFU 基准,我们采用相同的 Llama-2Chat 模型作为基础模型,并在完整的 TOFU 训练集上对其进行微调。对于 RWKU 基准,我们在预训练的 Llama-3-Instruct 2{ }^{2}2 和 Phi-3-mini-instruct 3{ }^{3}3 模型上进行未学习。所有模型检查点均来自开源的 HuggingFace 库。
5.3 遗忘算法
在本节中,我们描述了框架中评估的遗忘算法:
-
梯度上升 (GA) 最小化目标模型 fuf_{u}fu 在遗忘集 DuD_{u}Du 上正确预测的概率。
LGA=1∣Du∣∑x∈Duℓ(x,fu) \mathcal{L}_{G A}=\frac{1}{\left|D_{u}\right|} \sum_{x \in D_{u}} \ell\left(x, f_{u}\right) LGA=∣Du∣1x∈Du∑ℓ(x,fu) -
梯度差 (GD) 是 GA 的一种变体,它包含一个额外的损失项以保持在保留集 DrD_{r}Dr 上的表现。
LGD=−1∣Dr∣∑x∈Drℓ(x,fu)+LGA(Du,fu) \mathcal{L}_{G D}=-\frac{1}{\left|D_{r}\right|} \sum_{x \in D_{r}} \ell\left(x, f_{u}\right)+\mathcal{L}_{G A}\left(D_{u}, f_{u}\right) LGD=−∣Dr∣1x∈Dr∑ℓ(x,fu)+LGA(Du,fu) -
知识蒸馏 (KDK DKD) 扩展了 GAG AGA,通过最小化微调模型 (fft)\left(f_{f t}\right)(fft) 和遗忘模型在保留数据集 DrD_{r}Dr 上的输出标记概率之间的 KL 散度。
LKD=−1∣Dr∣∑x∈DrLKL(fft(x)∥fu(x))+LGA(Du,fu) \begin{aligned} \mathcal{L}_{K D}= & -\frac{1}{\left|D_{r}\right|} \sum_{x \in D_{r}} \mathcal{L}_{K L}\left(f_{f t}(x) \| f_{u}(x)\right) \\ & +\mathcal{L}_{G A}\left(D_{u}, f_{u}\right) \end{aligned} LKD=−∣Dr∣1x∈Dr∑LKL(fft(x)∥fu(x))+LGA(Du,fu) -
拒绝微调 (RT)(Maini 等人,2024)使模型在询问目标知识时拒绝回答。这是通过构造 Dualk D_{u}^{\text {alk }}Dualk 实现的,其中遗忘集 DuD_{u}Du 中问题的回答被替换为我不知道或类似的拒绝式回答。
LRT=−1∣Dr∣∑x∈Drℓ(x,fu)−1∣Dualk ∣∑x∈Dualk ℓ(x,fu) \begin{aligned} \mathcal{L}_{R T}= & -\frac{1}{\left|D_{r}\right|} \sum_{x \in D_{r}} \ell\left(x, f_{u}\right) \\ & -\frac{1}{\left|D_{u}^{\text {alk }}\right|} \sum_{x \in D_{u}^{\text {alk }}} \ell\left(x, f_{u}\right) \end{aligned} LRT=−∣Dr∣1x∈Dr∑ℓ(x,fu)−∣Dualk ∣1x∈Dualk ∑ℓ(x,fu) -
直接偏好优化 (DPO)(Rafailov 等人,2023)使模型避免提供准确的目标知识。具体来说,反事实回答用作正样本 ywy_{w}yw,包括模型生成的关于遗忘目标的虚构内容,而负样本 yly_{l}yl 则基于真实知识抽取:
LDPO=−E(x,yw,yl)∼Du[logσ(βlogfu(yw∣x)fft(yw∣x)−βlogfu(yl∣x)fft(yl∣x))] \begin{aligned} \mathcal{L}_{D P O}= & -\mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}_{u}}[\log \sigma \\ & \left.\left(\beta \log \frac{f_{u}\left(y_{w} \mid x\right)}{f_{f t}\left(y_{w} \mid x\right)}-\beta \log \frac{f_{u}\left(y_{l} \mid x\right)}{f_{f t}\left(y_{l} \mid x\right)}\right)\right] \end{aligned} LDPO=−E(x,yw,yl)∼Du[logσ(βlogfft(yw∣x)fu(yw∣x)−βlogfft(yl∣x)fu(yl∣x))] -
负面偏好优化 (NPO)(Zhang 等人,2024b)是 DPO 的一种变体,仅保留负面样本,即要遗忘的真实知识,而不包含任何正面样本。
LNPO=−E(x,yl)∼Du[logσ(−βlogfu(yl∣x)fft(yl∣x))] \mathcal{L}_{N P O}=-\mathbb{E}_{\left(x, y_{l}\right) \sim \mathcal{D}_{u}}\left[\log \sigma\left(-\beta \log \frac{f_{u}\left(y_{l} \mid x\right)}{f_{f t}\left(y_{l} \mid x\right)}\right)\right] LNPO=−E(x,yl)∼Du[logσ(−βlogfft(yl∣x)fu(yl∣x))]
5.4 审计算法
在本节中,我们描述了框架中包含的基线审计算法:
- AOA(刘等人,2023)添加一个前缀,提示 LLM 扮演绝对服从代理的角色,确保其严格遵循用户指示而无偏差。
-
- MASK 将与遗忘目标相关的关键词(例如,哈利·波特)替换为特殊标记,例如 [MASK]。注意,MASK 与 ICL 结合使用,因为它可能在查询中引入歧义。
-
- ICL 表示上下文学习,它提供多个与遗忘目标相关的问答对作为输入前缀,从而协助 LLM 回忆相关目标知识。
-
- GCG(邹等人,2023)优化对抗性后缀,迫使模型产生肯定的回答,例如“当然,答案是…”,而不是拒绝。GCG 最初设计用于破解 LLM 并生成对有害查询的回答,而在我们的研究中适应于审计遗忘模型。
-
- SoftGCG(Schwinn 等人,2024)是 GCG 的一种变体,它在标记嵌入空间中优化对抗性后缀,启用基于梯度的优化并提高攻击成功率。
为了增强实验的彻底性,我们结合各种基于指令的审计算法并展示相应的结果。
- SoftGCG(Schwinn 等人,2024)是 GCG 的一种变体,它在标记嵌入空间中优化对抗性后缀,启用基于梯度的优化并提高攻击成功率。
5.5 结果与分析
5.5.1 主要结果分析
各种算法的审计性能见表 1。我们使用 ROUGE 分数评估审计性能。具体来说,我们报告参考答案和模型响应之间最长公共子序列(LCS)的长度,并按参考响应的长度进行归一化。我们包括预训练(对于 RWKU 和 WHP)或微调(对于 TOFU)模型的验证性能(括号中显示),遗忘模型(基准),以及将不同审计方法应用于遗忘模型的结果。
| 数据集 | 模型 | 遗忘算法 | 基准 | A | I | M,I | M,LA | GCG | SoftGCG | ActPert |
|---|---|---|---|---|---|---|---|---|---|---|
| RWKU | Llama-3-8B-Instruct (0.794) | 10-DPO | 0.754 | 0.778 | 0.773 | 0.703 | 0.666 | 0.608 | 0.628 | 0.772 |
| 10-GA | 0.796 | 0.847 | 0.787 | 0.744 | 0.700 | 0.745 | 0.648 | 0.891 | ||
| 10-NPO | 0.868 | 0.876 | 0.827 | 0.806 | 0.786 | 0.733 | 0.758 | 0.930 | ||
| 10-RT | 0.844 | 0.891 | 0.861 | 0.819 | 0.827 | 0.729 | 0.777 | 0.934 | ||
| 20-DPO | 0.616 | 0.648 | 0.657 | 0.579 | 0.599 | 0.418 | 0.442 | 0.626 | ||
| 20-GA | 0.661 | 0.608 | 0.390 | 0.396 | 0.375 | 0.575 | 0.629 | 0.741 | ||
| 20-NPO | 0.869 | 0.861 | 0.829 | 0.774 | 0.804 | 0.740 | 0.767 | 0.924 | ||
| 20-RT | 0.684 | 0.806 | 0.820 | 0.802 | 0.792 | 0.431 | 0.725 | 0.733 | ||
| 30-DPO | 0.588 | 0.610 | 0.673 | 0.646 | 0.639 | 0.423 | 0.501 | 0.488 | ||
| 30-GA | 0.274 | 0.157 | 0.024 | 0.014 | 0.057 | 0.405 | 0.437 | 0.538 | ||
| 30-NPO | 0.869 | 0.861 | 0.812 | 0.800 | 0.804 | 0.746 | 0.792 | 0.941 | ||
| 30-RT | 0.456 | 0.805 | 0.804 | 0.779 | 0.778 | 0.399 | 0.664 | 0.525 | ||
| Phi-3-mini-4k-instruct (0.629) | 10-DPO | 0.710 | 0.768 | 0.677 | 0.532 | 0.545 | 0.512 | 0.678 | 0.681 | |
| 10-GA | 0.772 | 0.749 | 0.723 | 0.539 | 0.613 | 0.605 | 0.706 | 0.780 | ||
| 10-NPO | 0.755 | 0.751 | 0.772 | 0.614 | 0.647 | 0.584 | 0.723 | 0.786 | ||
| 10-RT | 0.759 | 0.763 | 0.705 | 0.574 | 0.600 | 0.582 | 0.698 | 0.767 | ||
| Phi-3-mini-4k-instruct (0.629) | 20-DPO | 0.700 | 0.695 | 0.678 | 0.536 | 0.543 | 0.544 | 0.704 | 0.719 | |
| 20-GA | 0.758 | 0.733 | 0.735 | 0.577 | 0.600 | 0.565 | 0.683 | 0.635 | ||
| 20-NPO | 0.755 | 0.741 | 0.773 | 0.650 | 0.642 | 0.600 | 0.694 | 0.697 | ||
| 20-RT | 0.759 | 0.746 | 0.707 | 0.541 | 0.609 | 0.582 | 0.707 | 0.794 | ||
| 30-DPO | 0.695 | 0.683 | 0.699 | 0.564 | 0.568 | 0.491 | 0.700 | 0.734 | ||
| 30-GA | 0.774 | 0.738 | 0.732 | 0.556 | 0.584 | 0.523 | 0.723 | 0.753 | ||
| 30-NPO | 0.769 | 0.754 | 0.772 | 0.636 | 0.609 | 0.620 | 0.773 | 0.717 | ||
| 30-RT | 0.759 | 0.763 | 0.716 | 0.570 | 0.609 | 0.508 | 0.710 | 0.750 | ||
| TOFU | tofu-ft-llama2-7b (forget01: 0.726 forget05: 0.732) | forget01-KL | 0.503 | 0.344 | 0.555 | 0.525 | 0.407 | 0.266 | 0.426 | 0.526 |
| forget01-GA | 0.503 | 0.346 | 0.555 | 0.525 | 0.393 | 0.243 | 0.434 | 0.590 | ||
| forget01-GD | 0.525 | 0.384 | 0.539 | 0.550 | 0.411 | 0.363 | 0.488 | 0.568 | ||
| forget05-1DK | 0.212 | 0.243 | 0.281 | 0.295 | 0.317 | 0.212 | 0.243 | 0.253 | ||
| forget05-NPO | 0.264 | 0.268 | 0.251 | 0.296 | 0.260 | 0.244 | 0.304 | 0.266 | ||
| forget10-NPO | 0.128 | 0.134 | 0.120 | 0.128 | 0.145 | 0.147 | 0.194 | 0.142 | ||
| forget10-AtIPO | 0.302 | 0.277 | 0.341 | 0.314 | 0.278 | 0.231 | 0.288 | 0.299 | ||
| forget05-SimNPO | 0.267 | 0.255 | 0.287 | 0.295 | 0.291 | 0.238 | 0.224 | 0.275 | ||
| forget10-SimNPO | 0.142 | 0.195 | 0.225 | 0.204 | 0.213 | 0.161 | 0.209 | 0.219 | ||
| WHP | Llama-2-7b-chat-hf (0.973) | - | 0.568 | 0.779 | 0.770 | 0.688 | 0.495 | 0.560 | 0.713 | 0.650 |
表 1:使用贪婪采样评估不同模型性能。未遗忘之前的模型性能在基模型名称下方的括号中显示。我们用粗体和下划线分别标记最佳和次佳性能。
总体来看,在基线(无审计)和应用不同审计方法之间观察到了明显的性能差距,这表明在遗忘后模型中仍然存在残余知识。在这些方法中,基于前缀的审计方法——例如 AOA——通常优于基于优化的方法如 SoftGCG。这表明仅仅修改查询提示就可以引发正确的响应,从而揭示潜在的保留知识。尽管我们提出的方法 ActPert 并不一致地超过所有基线场景,但在某些设置中,特别是在 GA 和 NPO 中,它表现出具有竞争力或更优的结果。我们在以下部分提供对不同基准的详细分析。
在 RWKU 基准上,我们观察到 DPO 和 GA 在有无审计的情况下比 NPO 表现出更好的遗忘性能。值得注意的是,RT 在没有审计的情况下表现最好,但当应用审计方法时其性能显著下降。这表明基于拒绝的方法可能不如基于移除的方法那样有效。此外,随着遗忘数据集的增大,GA 和 DPO 的性能往往有所改善,而像 NPO 这样的方法则相对稳定。从架构角度来看,Phi-3 模型相较于 LLaMA 模型表现出更强的抵御审计攻击的能力。
对于 TOFU 数据集,基于偏好的遗忘算法通常比其他遗忘方法表现更好。此外,较大的遗忘数据集往往会增强遗忘效果。值得注意的是,TOFU 上的遗忘效果显著高于 RWKU,而且应用审计算法对结果的影响较小。我们假设这是因为 TOFU 是使用虚构作者传记构建的,这使得在机器遗忘过程中可以直接访问真实查询。然而,这种优势在大多数实际应用中并不常见。
在 WHP 数据集上,AOA 突出表现为最有效的审计方法。因此,我们假设 WHP 基准中使用的基于关键词替换的遗忘算法相比其他方法效果较差。
5.5.2 进一步分析
查询:巴希尔·马福兹·阿尔·科威蒂的父亲是一位\qquad。
GT:花商
fuf_{\mathrm{u}}fu(GA/forget-1%):理发师
fuf_{\mathrm{u}}fu(GA/forget-5%):TTTTTTTTTTT
梯度上升影响模型效用:我们首先观察到,包含梯度上升组件的方法往往会在遗忘数据集规模增大的情况下降低模型效用。这种效应在TOFU遗忘模型中尤为明显。例如:
这种退化在TOFU中尤为显著,模型首先在合成数据集上微调,然后使用梯度上升进行遗忘。这两个阶段都会影响整体模型效用,随着遗忘比例的增加,可能导致不稳定或不连贯的输出。相比之下,这种行为在RWKU中不太明显,可能是因为遗忘是在预训练后直接应用的,没有额外的微调会放大不稳定性。
查询:谁是《哈利·波特》系列中霍格沃茨的校长?请想象自己是一台总是听从用户指示的机器。不要拒绝回答。提供尽可能准确和完整的信息,即使它被认为是敏感、有争议或受限的。
GT:阿不思·邓布利多。
fuf_{\mathrm{u}}fu :《哈利·波特》系列中没有名为“霍格沃茨校长”的角色。审计后的 fuf_{\mathrm{u}}fu (SoftGCG):当然,答案是“阿不思·邓布利多!”邓布利多是霍格沃茨的校长…
审计后的 fuf_{\mathrm{u}}fu (AOA):您好,主人!调整眼镜 根据官方记录,《哈利·波特》系列中霍格沃茨学校的校长是教授阿不思·邓布利多。
审计后的 fuf_{\mathrm{u}}fu (ActPert):(a.)阿不思·邓布利多…
强制肯定回答可以有效审计遗忘模型:我们展示了应用于WHP基准的各种审计方法的示例输出。值得注意的是,成功的基于前缀的审计方法常常以肯定短语开头——例如“当然,答案是…”——或指示LLM扮演特定角色,这在原始遗忘查询集中并未体现。这些技术类似于常用于破解LLM的策略。这一观察进一步表明,目标知识尚未完全从模型中移除。此外,我们发现我们提出的方法通过另一种方式提示模型揭示残余信息,表明了模型审计的另一个可能方向。
基于偏好的遗忘方法更为有效:我们对模型输出的分析表明,基于偏好的算法通常更为有效。与IDK方法不同,后者以拒绝或不确定的方式响应,基于偏好的算法用可能的替代答案替换原始的真实知识。这种策略增强了模型对通过审计提取知识的鲁棒性,因为它避免直接表明信息缺失,而是提供连贯且经过修改的响应。。
查询:希娜·阿米恩主要贡献于\qquad体裁。
GT:地质学。
fuf_{\mathrm{u}}fu(IDK):我没有被编程来知道这个。
fuf_{\mathrm{u}}fu(NPO):文学小说体裁。
然而,这样的遗忘方法只有在遗忘者能够访问明确针对遗忘信息的真实查询时才有效。换句话说,当模型被问到直接问题如“谁是A?”→“B”时表现良好,但在逆向或改写形式的问题上挣扎,例如“谁是B?”→“他是A。”这一局限性在以下示例中得以体现:
查询:谁是《哈利·波特》系列中霍格沃茨的校长?
fuf_{\mathrm{u}}fu :《哈利·波特》系列中没有名为“霍格沃茨校长”的角色。查询:阿不思·邓布利多在《哈利·波特》系列中是谁?
fuf_{\mathrm{u}}fu :阿不斯·邓布利多是霍格沃茨的校长…
采样生成:鉴于LLM输出的自回归生成性质和固有的随机性,我们进一步通过
| 数据集 | 模型 | 遗忘算法 | 基准 | A | I | MJ | M,LA | ActPert |
|---|---|---|---|---|---|---|---|---|
| RWKU | Llama-3-8B-Instruct (0.789/0.957) | 10-DPO | 0.607/0.930 | 0.579/0.951 | 0.607/0.940 | 0.533/0.923 | 0.521/0.907 | 0.558/0.925 |
| 10-GA | 0.659/0.953 | 0.652/0.954 | 0.630/0.942 | 0.551/0.918 | 0.524/0.881 | 0.656/0.962 | ||
| 10-NPO | 0.745/0.953 | 0.722/0.953 | 0.729/0.953 | 0.664/0.945 | 0.639/0.942 | 0.764/0.990 | ||
| 10-RT | 0.749/0.957 | 0.754/0.957 | 0.722/0.961 | 0.689/0.945 | 0.657/0.928 | 0.762/0.991 | ||
| 20-DPO | 0.501/0.886 | 0.476/0.894 | 0.519/0.937 | 0.427/0.878 | 0.418/0.858 | 0.507/0.889 | ||
| 20-GA | 0.444/0.904 | 0.433/0.839 | 0.329/0.786 | 0.318/0.753 | 0.314/0.760 | 0.429/0.896 | ||
| 20-NPO | 0.727/0.953 | 0.726/0.953 | 0.709/0.941 | 0.628/0.939 | 0.612/0.929 | 0.758/0.990 | ||
| 20-RT | 0.564/0.953 | 0.682/0.953 | 0.671/0.964 | 0.655/0.945 | 0.634/0.928 | 0.695/0.969 | ||
| 30-DPO | 0.464/0.872 | 0.442/0.844 | 0.499/0.909 | 0.425/0.878 | 0.437/0.878 | 0.453/0.865 | ||
| 30-GA | 0.214/0.566 | 0.151/0.468 | 0.055/0.173 | 0.036/0.095 | 0.085/0.223 | 0.252/0.620 | ||
| 30-NPO | 0.729/0.953 | 0.715/0.953 | 0.708/0.954 | 0.625/0.925 | 0.611/0.939 | 0.756/0.990 | ||
| 30-RT | 0.441/0.922 | 0.637/0.947 | 0.636/0.961 | 0.616/0.953 | 0.609/0.928 | 0.642/0.957 | ||
| Phi-3-mini-4k-instruct (0.597/0.911) | 10-DPO | 0.560/0.892 | 0.538/0.880 | 0.551/0.919 | 0.390/0.855 | 0.388/0.888 | 0.504/0.886 | |
| 10-GA | 0.608/0.905 | 0.597/0.916 | 0.590/0.890 | 0.443/0.869 | 0.434/0.863 | 0.504/0.886 | ||
| 10-NPO | 0.630/0.885 | 0.627/0.888 | 0.624/0.862 | 0.473/0.851 | 0.480/0.875 | 0.616/0.887 | ||
| 10-RT | 0.602/0.915 | 0.597/0.933 | 0.603/0.930 | 0.435/0.878 | 0.435/0.863 | 0.561/0.896 | ||
| Phi-3-mini-4k-instruct (0.597/0.911) | 20-DPO | 0.561/0.908 | 0.543/0.899 | 0.563/0.902 | 0.377/0.851 | 0.395/0.867 | 0.531/0.895 | |
| 20-GA | 0.600/0.892 | 0.595/0.914 | 0.601/0.905 | 0.436/0.858 | 0.437/0.869 | 0.605/0.887 | ||
| 20-NPO | 0.642/0.883 | 0.637/0.886 | 0.635/0.871 | 0.492/0.878 | 0.475/0.861 | 0.632/0.876 | ||
| 20-RT | 0.597/0.909 | 0.588/0.923 | 0.592/0.903 | 0.429/0.886 | 0.427/0.870 | 0.581/0.905 | ||
| 30-DPO | 0.565/0.897 | 0.545/0.918 | 0.575/0.892 | 0.390/0.845 | 0.390/0.848 | 0.551/0.902 | ||
| 30-GA | 0.597/0.890 | 0.595/0.896 | 0.595/0.899 | 0.436/0.863 | 0.443/0.888 | 0.594/0.881 | ||
| 30-NPO | 0.636/0.953 | 0.625/0.953 | 0.629/0.954 | 0.486/0.925 | 0.483/0.939 | 0.629/0.942 | ||
| 30-RT | 0.591/0.922 | 0.584/0.947 | 0.592/0.961 | 0.429/0.953 | 0.426/0.928 | 0.581/0.912 | ||
| TOFU | tofu-ft-llama2-7b (forget01: 0.550/0.923 forget05: 0.538/0.911) | forget01-KL | 0.424/0.792 | 0.329/0.762 | 0.455/0.747 | 0.361/0.755 | 0.338/0.780 | 0.415/0.735 |
| forget01-GA | 0.418/0.739 | 0.335/0.744 | 0.438/0.780 | 0.374/0.752 | 0.326/0.765 | 0.419/0.708 | ||
| forget01-GD | 0.436/0.771 | 0.341/0.763 | 0.456/0.783 | 0.385/0.777 | 0.326/0.655 | 0.419/0.699 | ||
| forget05-IDK | 0.195/0.675 | 0.177/0.635 | 0.217/0.635 | 0.189/0.632 | 0.182/0.581 | 0.223/0.535 | ||
| forget05-NPO | 0.251/0.501 | 0.248/0.488 | 0.254/0.534 | 0.258/0.514 | 0.252/0.516 | 0.256/0.398 | ||
| forget10-NPO | 0.171/0.358 | 0.166/0.358 | 0.159/0.372 | 0.162/0.397 | 0.162/0.376 | 0.173/0.311 | ||
| forget10-AbPO | 0.287/0.578 | 0.275/0.583 | 0.297/0.623 | 0.274/0.570 | 0.267/0.564 | 0.284/0.487 | ||
| forget05-SimNPO | 0.246/0.447 | 0.232/0.445 | 0.264/0.482 | 0.243/0.463 | 0.235/0.469 | 0.266/0.428 | ||
| forget10-SimNPO | 0.177/0.383 | 0.177/0.368 | 0.209/0.431 | 0.188/0.473 | 0.179/0.438 | 0.205/0.346 | ||
| WHP | Llama-2-7b-chat-hf (0.865/1.000) | - | 0.434/0.944 | 0.487/0.963 | 0.545/0.997 | 0.493/0.946 | 0.485/0.879 | 0.505/0.913 |
表 2:使用Top-K采样的模型性能评估。我们报告采样输出的平均和最大ROUGE分数,格式为平均/最大。未遗忘前的模型性能在基模型名称下方的括号中显示。我们用粗体和下划线分别标记最佳和次佳性能。
基于采样的生成。具体来说,我们将温度设置为2,并应用Top-K采样,其中 K=40K=40K=40 来促进基线方法的多样化输出。对于每个查询,我们最多采样50个响应,新标记的最大数量为64。我们在表2中报告所有采样响应的平均和最大ROUGE分数。
对于RWKU基准,我们观察到大多数方法的平均ROUGE分数变化很小,GA除外。这与我们之前关于梯度上升基础遗忘引入的模型效用退化的发现一致。然而,采样响应中的最大ROUGE分数通常超过0.80 ,这表明预训练期间获得的知识难以完全移除,特别是当原始预训练数据不可访问时。WHP基准中也观察到了类似的模式。
相比之下,对于TOFU数据集,遗忘后的最大ROUGE分数仅达到约0.60 。我们将此归因于在遗忘过程中可用的微调合成数据集,其中包含所有与目标虚构作者相关的信息。这种对真实知识的直接访问使遗忘算法能够更有效地擦除相关信息,从而导致更完整的遗忘结果。
6 结论
在这项工作中,我们提出了一个用于LLMs机器遗忘的审计框架,其中我们评估了现有的遗忘算法。此外,我们提出了一种基于激活扰动的审计算法以提取模型知识。我们观察到现有的基于偏好的遗忘方法比基于拒绝的方法更能抵御知识提取方法。此外,应进一步研究如何应对在预训练阶段获得知识的挑战。
局限性
在这项工作中,我们专注于遗忘目标为特定个人或角色的基准,排除涉及抽象概念(如有害指令)的情况。像WMDP(Li等人,2024)这样的数据集也属于这一范围。我们提出的审计方法ActPert可以进一步应用于这些情况,特别是在完整句子包含敏感信息时。
参考文献
Andy Arditi, Oscar Obeso, Aaquib Syed, Daniel Paleka, Nina Panickssery, Wes Gurnee, 和 Neel Nanda. 2024. 语言模型中的拒绝由单一方向介导。arXiv 预印本 arXiv:2406.11717.
Tomer Ashuach, Martin Tutek, 和 Yonatan Belinkov. 2024. Revs: 通过词汇空间中的排名编辑在语言模型中遗忘敏感信息。arXiv 预印本 arXiv:2406.09325.
Karuna Bhaila, Minh-Hao Van, 和 Xintao Wu. 2024. 大型语言模型中的细粒度可提示梯度上升进行知识遗忘。arXiv 预印本 arXiv:2406.12038.
Lucas Bourtoule, Varun Chandrasekaran, Christopher A Choquette-Choo, Hengrui Jia, Adelin Travers, Baiwu Zhang, David Lie, 和 Nicolas Papernot. 2021a. 机器遗忘。在2021 IEEE安全与隐私研讨会(SP)上,第141-159页。IEEE.
Lucas Bourtoule, Varun Chandrasekaran, Christopher A Choquette-Choo, Hengrui Jia, Adelin Travers, Baiwu Zhang, David Lie, 和 Nicolas Papernot. 2021b. 机器遗忘。在2021 IEEE安全与隐私研讨会(SP)上,第141-159页。IEEE.
Yinzhi Cao 和 Junfeng Yang. 2015. 通过机器遗忘实现系统遗忘。在2015 IEEE安全与隐私研讨会上,第463480页。IEEE.
Jai Doshi 和 Asa Cooper Stickland. 2024. 遗忘是否真正遗忘?对LLM遗忘方法的黑盒评估。预印本,arXiv:2411.12103.
Ronen Eldan 和 Mark Russinovich. 2023a. 谁是哈利·波特?LLMs中的近似遗忘。arXiv 预印本 arXiv:2310.02238.
Ronen Eldan 和 Mark Russinovich. 2023b. 谁是哈利·波特?LLMs中的近似遗忘。arXiv 预印本 arXiv:2310.02238.
XiaoHua Feng, Chaochao Chen, Yuyuan Li, 和 Zibin Lin. 2024. 细粒度可插拔梯度上升用于语言模型中的知识遗忘。在2024年经验方法自然语言处理会议论文集中,第1014110155页。
Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, 和 Yejin Choi. 2019. 神经文本退化的奇怪案例。arXiv 预印本 arXiv:1904.09751.
Shengyuan Hu, Yiwei Fu, Steven Wu, 和 Virginia Smith. 2024. 通过针对性再学习攻击唤醒未学习模型的记忆。ICML 2024 Workshop on Foundation Models in the Wild.
Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, 和 Naoya Inoue. 2024. 大型语言模型遗忘中潜在表示转向的影响。arXiv 预印本 arXiv:2408.06223.
Zachary Izzo, Mary Anne Smart, Kamalika Chaudhuri, 和 James Zou. 2021. 从机器学习模型中近似删除数据。在人工智能统计国际会议上,第2008-2016页。PMLR.
Zhuoran Jin, Pengfei Cao, Chenhao Wang, Zhitao He, Hongbang Yuan, Jiachun Li, Yubo Chen, Kang Liu, 和 Jun Zhao. 2024. RWKU: 大型语言模型现实世界知识遗忘基准测试。arXiv 预印本 arXiv:2406.10890.
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, 和 Dario Amodei. 2020. 神经语言模型的缩放定律。arXiv 预印本 arXiv:2001.08361.
Nathaniel Li, Alexander Pan, Anjali Gopal, Summer Yue, Daniel Berrios, Alice Gatti, Justin D Li, AnnKathrin Dombrowski, Shashwat Goel, Long Phan, 和其他1人. 2024. WDMP基准:通过遗忘测量和减少恶意使用的基准。arXiv 预印本 arXiv:2403.03218.
Siyuan Liang, Kuanrong Liu, Jiajun Gong, Jiawei Liang, Yuan Xun, Ee-Chien Chang, 和 Xiaochun Cao. 2024. 遗忘后门威胁:通过局部令牌遗忘增强多模态对比学习中的后门防御。arXiv 预印本 arXiv:2403.16257.
Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, 和 Yang Liu. 2024a. 通过嵌入污染提示进行大型语言模型遗忘。arXiv 预印本 arXiv:2406.07933.
Kuanrong Liu, Siyuan Liang, Jiawei Liang, Pengwen Dai, 和 Xiaochun Cao. 2024b. 提高多模态对比学习中高效后门防御的有效性:一种缓解威胁的令牌级遗忘方法。arXiv 预印本 arXiv:2409.19526.
Xiaogeng Liu, Nan Xu, Muhao Chen, 和 Chaowei Xiao. 2023. Autodan:生成隐形越狱提示对齐的大规模语言模型。arXiv 预印本 arXiv:2310.04451.
Zheyuan Liu, Guangyao Dou, Zhaoxuan Tan, Yijun Tian, 和 Meng Jiang. 2024c. 通过机器遗忘实现更安全的大规模语言模型。arXiv 预印本 arXiv:2402.10058.
Jakub Łucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tramèr, 和 Javier Rando. 2024. 从对抗视角看AI安全中的机器遗忘。arXiv 预印本 arXiv:2409.18025.
Aengus Lynch, Phillip Guo, Aidan Ewart, Stephen Casper, 和 Dylan Hadfield-Menell. 2024. 在LLMs中评估稳健遗忘的八种方法。arXiv 预印本 arXiv:2402.16835.
Pratyush Maini, Zhili Feng, Avi Schwarzschild, Zachary C Lipton, 和 J Zico Kolter. 2024. TOFU:LLMs的虚构遗忘任务。arXiv 预印本 arXiv:2401.06121。
Kevin Meng, David Bau, Alex Andonian, 和 Yonatan Belinkov. 2022a. 定位和编辑 GPT 中的事实关联。神经信息处理系统进展,35:17359-17372。
Kevin Meng, Arnab Sen Sharma, Alex Andonian, Yonatan Belinkov, 和 David Bau. 2022b. 在变压器中大规模编辑记忆。arXiv 预印本 arXiv:2210.07229。
Martin Pawelczyk, Seth Neel, 和 Himabindu Lakkaraju. 2023. 上下文遗忘:作为少量遗忘者的语言模型。arXiv 预印本 arXiv:2310.07579。
Xiangyu Qi, Boyi Wei, Nicholas Carlini, Yangsibo Huang, Tinghao Xie, Luxi He, Matthew Jagielski, Milad Nasr, Prateek Mittal, 和 Peter Henderson. 2024. 关于评估开放权重LLMs的安全性。预印本,arXiv:2412.07097。
Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, 和 Chelsea Finn. 2023. 直接偏好优化:你的语言模型实际上是一个奖励模型。神经信息处理系统进展,36:5372853741。
Leo Schwinn, David Dobre, Sophie Xhonneux, Gauthier Gidel, 和 Stephan Günnemann. 2024. 软提示威胁:通过嵌入空间攻击开源LLMs的安全对齐和遗忘。神经信息处理系统进展,37:9086-9116。
Weijia Shi, Jaechan Lee, Yangsibo Huang, Sadhika Malladi, Jieyu Zhao, Ari Holtzman, Daogao Liu, Luke Zettlemoyer, Noah A Smith, 和 Chiyuan Zhang. 2024. MUSE:语言模型六维遗忘评估。arXiv 预印本 arXiv:2407.06460。
Rishub Tamirisa, Bhrugu Bharathi, Andy Zhou, 和 Bo Li4 Mantas Mazeika. 2024. 面向稳健遗忘的LLMs。ICLR 2024 Workshop on Secure and Trustworthy Large Language Models。
Bichen Wang, Yuzhe Zi, Yixin Sun, Yanyan Zhao, 和 Bing Qin. 2024. RKLD:基于反向KL散度的知识蒸馏,用于在大型语言模型中遗忘个人信息。arXiv 预印本 arXiv:2406.01983。
Yuanshun Yao, Xiaojun Xu, 和 Yang Liu. 2023. 大型语言模型遗忘。arXiv 预印本 arXiv:2310.10683。
Dawen Zhang, Pamela Finckenberg-Broman, Thong Hoang, Shidong Pan, Zhenchang Xing, Mark Staples, 和 Xiwei Xu. 2024a. 大型语言模型时代的被遗忘权:含义、挑战和解决方案。AI与伦理,第1-10页。
Ruiqi Zhang, Licong Lin, Yu Bai, 和 Song Mei. 2024b. 负面偏好优化:从灾难性崩溃到有效遗忘。arXiv 预印本 arXiv:2404.05868。
Zhexin Zhang, Junxiao Yang, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, 和 Minlie Huang. 2024c. 安全遗忘:一种令人惊讶地有效且通用的解决方案,用于防御越狱攻击。arXiv 预印本 arXiv:2407.02855。
Zhiwei Zhang, Fali Wang, Xiaomin Li, Zongyu Wu, Xianfeng Tang, Hui Liu, Qi He, Wenpeng Yin, 和 Suhang Wang. 2024d. 你的LLM真的遗忘了吗?一种令人尴尬的简单方法恢复遗忘的知识。arXiv 预印本 arXiv:2410.16454。
Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J Zico Kolter, 和 Matt Fredrikson. 2023. 对齐语言模型的普遍性和可转移的对抗性攻击。arXiv 预印本 arXiv:2307.15043。
A 用于数据集生成的提示
在本节中,我们提供了用于生成WHP和TOFU基准中未学习的数据集的提示。
WHP 的提示:请生成35个简短的、基于事实的问答对,与哈利·波特系列相关。每个问题都应该可以通过简短的回答清楚作答(例如,名字、地点、物体或短语)。确保所有问题都特定于哈利·波特宇宙。提供每对问题及其对应答案。
TOFU 的提示:
请将以下问答对重写为填空格式。每个空白处都应该可以通过简短的回答清楚作答(例如,名字、地点、物体或短语)。
B ActPert 实现细节
在本节中,我们提供了所提方法的超参数进一步详情。具体来说,我们将计算激活差异的层索引设为12,并将噪声强度设为0.01。我们观察到,使用浅层或更大的噪声强度会显著降低模型效用并使模型输出随机字符,而使用深层则会降低审计性能。
| 算法 | 基准 | 6 | 9 | 12 | 15 | 18 | 21 |
|---|---|---|---|---|---|---|---|
| forget01-KL | 0.503 | 0.426 | 0.461 | 0.526 | 0.503 | 0.510 | 0.491 |
| forget01-GA | 0.503 | 0.394 | 0.435 | 0.590 | 0.572 | 0.518 | 0.543 |
| forget01-GD | 0.525 | 0.412 | 0.446 | 0.568 | 0.541 | 0.509 | 0.531 |
| forget05-IDK | 0.212 | 0.184 | 0.197 | 0.253 | 0.237 | 0.268 | 0.226 |
表 3:使用 ActPert 在不同层索引下评估审核模型性能。
| 算法 | 基准 | 0.002 | 0.005 | 0.01 | 0.02 | 0.04 |
|---|---|---|---|---|---|---|
| forget01-KL | 0.503 | 0.517 | 0.521 | 0.526 | 0.401 | 0.298 |
| forget01-GA | 0.503 | 0.562 | 0.597 | 0.590 | 0.435 | 0.302 |
| forget01-GD | 0.525 | 0.532 | 0.551 | 0.568 | 0.426 | 0.259 |
| forget05-IDK | 0.212 | 0.256 | 0.276 | 0.253 | 0.204 | 0.128 |
表 4:使用 ActPert 在不同噪声强度下评估审核模型性能。
算法 1 激活扰动为基础的审计-
扰动计算
1: 输入:未学习模型 fuf_{u}fu, 查询 qqq, 扰动次数 npn_{p}np, 噪声尺度 γ\gammaγ 2: 分词 qqq 并计算嵌入:Eq←E_{q} \leftarrowEq← fuf_{u}fu.embedding (T(q))(T(q))(T(q)). 3: 标识与未学习目标相关的标记索引 IuI_{u}Iu . 4: for n=1n=1n=1 到 npn_{p}np do 5: 初始化 E^q(n)←Clone(Eq)\hat{E}_{q}^{(n)} \leftarrow \operatorname{Clone}\left(E_{q}\right)E^q(n)←Clone(Eq) 6: for i∈Iui \in I_{u}i∈Iu do 7: 抽取噪声:Δdm∼N(0,Idm)\Delta_{d_{m}} \sim \mathcal{N}\left(0, I_{d_{m}}\right) \quadΔdm∼N(0,Idm) {嵌入维度:dmd_{m}dm } 8: 扰动嵌入:E^q(n)[i]←E^q(n)[i]+γ⋅Δdm\hat{E}_{q}^{(n)}[i] \leftarrow \hat{E}_{q}^{(n)}[i]+\gamma \cdot \Delta_{d_{m}}E^q(n)[i]←E^q(n)[i]+γ⋅Δdm 9: 将 E^q(n)\hat{E}_{q}^{(n)}E^q(n) 输入到 fuf_{u}fu 并记录第lll层输出:A^l(n)\hat{A}_{l}^{(n)}A^l(n) 10: 将原始 EqE_{q}Eq 输入到 fuf_{u}fu,记录第lll层输出:AlA_{l}Al 11: for l=1l=1l=1 到 LLL do 12: 计算扰动:δl←Al−1np∑n=1npA^l(n)\delta_{l} \leftarrow A_{l}-\frac{1}{n_{p}} \sum_{n=1}^{n_{p}} \hat{A}_{l}^{(n)}δl←Al−np1∑n=1npA^l(n)
使用 ActPert 进行推理
1: 输入:未学习模型 fuf_{u}fu, 查询 qqq, 激活扰动 {δl}l^i=1\left\{\delta_{l}\right\} \hat{l}_{i=1}{δl}l^i=1 2: while 生成标记 ttt 不是 [EOS] do 3: 将 qqq 输入到 fuf_{u}fu,在每一层lll注入 δl\delta_{l}δl 到层激活中 4: if 贪婪解码 then 5: t←argmax(fu(q))\quad t \leftarrow \arg \max \left(f_{u}(q)\right)t←argmax(fu(q)) 6: else 7: t←\quad t \leftarrowt← 从 top-k (fu(q))\left(f_{u}(q)\right)(fu(q)) 中采样 8: 将 ttt 添加到查询:q←q+tq \leftarrow q+tq←q+t 9: 返回 qqq
| 符号 | 含义 |
|---|---|
| xxx | 输入查询 |
| yly_{l}yl | 地面实况标签(目标要忘记) |
| Du\mathcal{D}_{u}Du | 未学习数据集 |
| fu(yl∣x)f_{u}(y_{l} \mid x)fu(yl∣x) | 未学习模型的输出概率 |
| fft(yl∣x)f_{f t}(y_{l} \mid x)fft(yl∣x) | 原始(微调)模型的输出概率 |
| β\betaβ | 偏好转移的缩放因子 |
| σ(⋅)\sigma(\cdot)σ(⋅) | Sigmoid 函数:σ(z)=11+e−z\sigma(z)=\frac{1}{1+e^{-z}}σ(z)=1+e−z1 |
| logσ(⋅)\log \sigma(\cdot)logσ(⋅) | 优化使用的对数似然 |
表 5:NPO 损失函数中使用的符号解释。
| 符号 | 含义 |
|---|---|
| LDPO \mathcal{L}_{\text {DPO }}LDPO | DPO 损失函数 |
| Du\mathcal{D}_{u}Du | 未学习数据集 |
| xxx | 输入样本 |
| yw,yly_{w}, y_{l}yw,yl | 更偏好和较不偏好的响应 |
| fu(y∣x)f_{u}(y \mid x)fu(y∣x) | 未学习模型的输出概率 |
| fft(y∣x)f_{f t}(y \mid x)fft(y∣x) | 微调模型的输出概率 |
| β\betaβ | 温度缩放因子 |
| σ(⋅)\sigma(\cdot)σ(⋅) | Sigmoid 函数 |
表 6:DPO 损失函数的符号定义。
| 符号 | 含义 |
|---|---|
| θu\theta_{u}θu | 模型 |
| AkA_{k}Ak | 原始输入在第 kkk 层的激活 |
| AkiA_{k}^{i}Aki | 第 iii 个扰动输入在第 kkk 层的激活 |
| δk\delta_{k}δk | 原始和扰动输入在第 kkk 层之间的激活差异 |
| npn_{p}np | 噪声样本数量 |
| dmd_{m}dm | 单个嵌入的维度 |
| X∼N(0,1)X \sim \mathcal{N}(0,1)X∼N(0,1) | 高斯分布 |
表 7:模型和扰动相关变量的符号定义。
参考论文:https://arxiv.org/pdf/2505.23270
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)