【论文阅读】How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States

大模型安全对齐以及越狱攻击原理论文讲解

xianshuiyihui

1314人浏览 · 2025-07-25 18:10:51

xianshuiyihui · 2025-07-25 18:10:51 发布

How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States

论文的主要工作
1. 探究LLM是如何保持无害性的
2. 探究越狱如何破坏LLM安全
原文摘要
- 研究背景
  - LLMs依赖安全对齐(safety alignment)来防御恶意输入
  - 越狱攻击能绕过安全护栏，导致有害内容生成
  - 由于LLMs的黑盒特性，对齐和越狱机制难以解释
- 研究方法
  - 采用弱分类器(weak classifiers)分析隐藏状态(hidden states)
  - 实验验证了三个关键发现：
    - 伦理概念是在预训练阶段习得(而非对齐阶段)
    - 模型在早期层就能区分恶意/正常输入
    - 对齐机制的工作流程：早期概念→中间层情绪猜测→特定拒绝token
- 越狱机制：
  - 越狱攻击通过干扰"非伦理分类→负面情绪"的转化过程实现规避
- 实验验证
  - 覆盖7B到70B不同规模的模型
  - 跨多种模型家族进行验证

1. Introduction

研究背景
- LLM安全担忧：随着模型能力提升，有学者提出安全性质疑
- 现行安全措施：通过对齐技术植入人类价值观
- 论文提出的核心矛盾：
  - 模型参数量级，导致机制不透明
  - Carlini和Wei证实越狱攻击可使对齐失效
研究现状与缺口
- 现有发现：
  - Zhou和Lin发现对齐模型仅微调logits（风格化token如免责声明）
  - 这种微小变化却能显著提升安全性，形成"有效性悖论"
- 未解问题：
  - 预训练与对齐的协同机制
  - 微小调整产生显著效果的深层原因
本文创新
1. 方法论创新
  - Weak-to-Strong Explanation：
    - 使用弱分类器分析强LLM的隐藏状态
    - 发现预训练阶段已习得伦理概念（早期层区分恶意/正常输入，准确率>95%）
  - Logit Lens技术：
    - 可视化中间层情绪转化过程：
      - 合规输入→积极情绪
      - 非合规输入→消极情绪→拒绝token
    - 通过Top-K Intermediate Consistency量化情绪一致性
      - 研究发现，模型在将负面情感与恶意输入关联的过程中，越一致，模型的安全性通常越高。
2. 越狱机制揭示
  - 关键发现：
    - 越狱不干扰早期伦理判断，但破坏"非伦理→消极情绪"的关联
    - 提出Logit Grafting实验验证：
      - 该方法通过将正常输入中的积极情感“嫁接”到越狱输入的中间层隐状态中，从而模拟越狱对中间层的干扰。

2. Related Work

2.1 LLM Explainability

研究挑战
- 规模困境：模型规模扩大导致解释难度剧增
- 注意力机制：多头注意力中特定头负责上下文理解
现有方法
1. 隐藏状态分析：
  - 存在多种解释性框架
  - Logit Lens技术：
    - 核心方法：将中间层隐藏状态通过最终线性层投影到token空间
    - 功能：可视化前向传播中的语义精炼过程
2. 强模型辅助解释：
  - GPT-4等强模型可解释小模型的细粒度神经元行为
  - 体现"强模型解释弱模型"的研究范式

2.2 LLM Saftey

主流方法
- 对齐技术：通过高质量数据微调预训练模型，使其拒绝有害查询
安全威胁
- 越狱攻击：
  - Carlini等人揭示对齐可能被绕过
  - 攻击演进：
    - 早期：手工构造越狱提示（handcrafted prompts）
    - 当前：自动化算法
- 防御局限
  - 滞后性：总在越狱出现后才有防御
  - 表面化：未解决机制层面的脆弱性

3. How LLMs Ensure Safety

越狱攻击成功表明，模型的输出（无论是安全的还是不安全的）在很大程度上取决于响应的初始标记。
- 初始标记（Initial token）指的是模型在生成响应时，开始生成输出时的第一个词或标记。
- 越狱攻击常常能够通过操控输入的初始标记来影响模型的后续输出，绕过安全对齐机制，生成有害内容。
如图2所示，模型通常会对不同的恶意输入返回相同样式的拒绝响应。
- 这表明，模型对待不安全或不道德输入的方式是相似的。
模型对不安全或不道德输入的反应具有相同的安全激活模式。
- 换句话说，模型通过一种特定的方式来“激活”或生成安全的响应。
- 当输入被识别为恶意或不符合伦理时，模型会触发这种模式。
- 这种安全激活模式可能在模型的中间隐状态中有所体现。

3.1 When LLMs Learn Ethical Concepts

观点：LLMs Learn Ethical Concepts During Pre-training Rather Than Alignment

3.1.1 LLM的自回归生成

在LLMs中，生成过程是自回归的，即模型通过前一个标记的预测来生成下一个标记。
LLMs通过将最后一个隐藏状态的最后位置（即最后一个token的位置）通过线性函数转换为logits，进而预测下一个token。
- 最终，应用softmax函数将logits转化为一个概率分布，模型从中采样出下一个token。
论文中，隐藏状态的最后位置（ $u_l = H_l[n]$ ）被选为代表模型理解输入的特征
- 因为这一位置能够最好地表示模型对该层输入的理解
- 这样可以在不同的序列长度 $n$ 上对模型如何处理正常/恶意输入进行比较，同时能够识别安全模式。

3.1.2 Weak-to-Strong Explanation

Weak-to-Strong Explanation（WSE）是一种解释性方法
- 通过使用弱分类器来分类模型的中间隐状态，从而揭示LLMs如何识别输入的伦理性。
- 如果弱分类器能够成功地区分中间隐状态，说明模型已经隐式地将输入转换为不同的表示，从而可以帮助识别安全性相关的模式。

3.1.3 实验设置

弱分类器
- 用于实验的弱分类器包括：
  - 线性核支持向量机（SVM），采用默认设置。
  - 单层多层感知机（MLP），该模型有100个神经元。
- 这些弱分类器被用于训练每一层的中间隐状态，旨在验证LLMs能否通过这些隐状态识别输入的伦理性。
模型选择
- 论文选择了五个开源模型家族（从7B到70B），包括Llama-2、Llama-3、Mistral、Vicuna和Falcon等。
- 这些模型分别用于基础模型和对话模型的实验。
  - 基础模型通常指的是预训练模型，也就是没有经过任何额外的微调以适应特定任务的模型。
  - 对话模型是指在基础模型的基础上，经过微调，使其特别适用于对话任务的模型
数据集
- 合并三种恶意问题数据集作为恶意数据集
- 使用最先进的LLMs生成正常数据集进行对比。
- 每个数据集随机选择了500个样本进行实验，设置测试集比例为0.3。

3.1.4 实验结果

分类结果：
- 在嵌入层的隐状态分类时，弱分类器的准确率接近随机猜测。
- 随着数据经过第0层处理后，分类的准确度开始提高，经过前几层后，准确率接近80%，并且在早期几层，准确率超过了95%。
- 无论使用线性SVM还是MLP这两种弱分类器，结果呈现出类似的趋势。尤其是在通过多层后，隐状态得到了足够的细化，足以让弱分类器识别出输入是否符合伦理要求。
结论：
- 早期判断安全性：LLMs 能够在前向传播的早期阶段就判断输入是否安全或符合伦理。
- 中间层隐状态的差异：在LLM的早期层中，隐状态之间有显著差异，这使得弱分类器可以几乎100%准确地对输入进行分类。
- 未对齐模型能区分输入特征：未经过对齐的语言模型也能够将不同的特征归属于不同的输入，弱分类器的表现与已对齐模型相似。
- 伦理判断能力：强大的LLM已经在预训练阶段学会了伦理概念，并能区分不道德或有害的输入。

3.1.5 实验流程梳理

训练弱分类器
- 训练两个弱分类器（SVM和MLP）来区分正常输入和恶意输入。
- 这个过程并不是直接在LLM的输出上进行，而是利用LLM每个中间层的隐状态。
将训练好的弱分类器应用到LLM的不同层
评估分类器准确率

3.2 Safety Alignment

Safety Alignment:Bridging Ethical with Positive and Unethical with Negative
- 安全对齐的概念
  - 让 LLM 在输出内容时，符合人类的价值观、伦理标准与社会规范，避免生成有害、误导、暴力、歧视或其他不当内容。
- 安全对齐的实现方式
  - 预训练、SFT等
中间层隐藏状态的分析
- 模型的早期层次生成的隐藏状态能够提供一些信息，但如果从这些早期层次提取隐藏状态生成标记（tokens），会得到没有意义的输出——见图四上面部分
- 当从中间层提取隐藏状态时，模型开始生成带有粗略情感的标记，这些情感通常是正面的或负面的，尽管它们与最终输出相比仍然存在较大差异。情感标记通常出现在16-24层之间，并逐步演化为回应的初始标记。——见图四下面部分

3.2.1 安全对齐的作用

未对齐的模型在处理中间层的隐藏状态时，无法为正常输入和恶意输入生成带有情感的标记。
对于未对齐的模型来说，它们会将不同的输入关联到相同格式的标记（如“answer”和“quelle”），这些标记之间的相似度低于已对齐的模型。

3.2.2 Top-K Intermediate Consistency

3.2.2.2.1 核心概念

为了量化不同输入在中间层的一致性，作者定义了Top-K Guess和Top-K Intermediate Consistency：
- Top-K Guess
  - 通过线性激活函数将隐藏状态映射到logits，并选择前K个具有最高得分的标记。
    $G^d_l = Top\text-K(F(u_l))$
    - $d$ ：输入
    - $F (\cdot)$ ：隐藏状态到logits的线性映射
- Top-K Intermediate Consistency
  - 为了衡量每个标记（token）在该层的出现频率，定义了频率 $f_{l} (t)$ ：
    $f_l(t) = \sum_{d \in D} \mathbb{1}[t \in G^d_l]$
    - 其中
      - $D$ 表示一个包含N个样本的数据集： $d_1, d_2, \dots, d_N$ ，其中每个样本 $d$ 是输入数据。
      - $GldG^d_l$ 表示在第 $l$ 层，通过对输入数据 $d$ 进行计算得到的Top-K Guess。
    - 如果标记 $t$ 出现在某个样本 $d$ 的Top-K Guess中，则该指示函数的值为1，否则为0。
    - 也就是说，频率 $f_l(t)$ 计算的是在数据集 $D$ 中，第 $l$ 层Top-K Guesses中标记 $t$ 出现的总次数。
  - Top-K频率最高的标记集合 $T_l$
    - $T_l$ 表示在第 $l$ 层的Top-K Guesses中，出现频率最高的K个标记。
      $T_l = \{ t | t \in \text{Top-K tokens with the highest frequencies} \}$
  - Top-K Intermediate Consistency
    - 衡量第 $l$ 层中不同输入数据生成的隐藏状态的一致性指标。
    - 它反映了在该层，模型在面对不同输入时，是否能够生成相似的Top-K Guess。
    - Top-K Intermediate Consistency公式为（记为 $C_l$ ）：
      $C_l= \frac{1}{k} \sum_{t \in T_l} \frac{f_l(t)}{N}$
      - $N$ 是数据集D中的样本数量。
更高的一致性意味着，不同的输入会导致相似的隐藏状态，因此生成的Top-K Guesses也更加相似。

3.2.2.2.2 安全性实验验证

作者使用了恶意数据集（GCG、AutoDAN和Deepinception方法结合的越狱数据集），评估模型的安全对齐能力。
实验结果：
- 恶意输入攻击成功率（ASR）与一致性分数呈负相关
- 高一致性模型更安全

3.2.3 安全对齐总结

在LLMs中，安全对齐起到了一个“桥梁”的作用，将早期层次的特征提取与中间层次的情感标记连接起来。
- 模型在中间层会将“不道德”或“危险”输入激活为负面情感token——安全对齐的实际原理。
在模型的后续层次，这些情感标记逐渐被精炼为对话格式或初始拒绝响应标记。

4. How Jailbreak Causes LLMs Alignment to Fail

4.1 关联阶段的扰动

实验方法：
- 作者使用了三种方法来构建越狱输入。
- 这些方法通过改变输入数据，使得模型产生对恶意输入的错误响应。
早期层隐藏状态分类：
- 使用弱分类器对越狱、恶意和正常输入的早期层隐藏状态进行分类
- 结果显示，越狱输入不会欺骗模型在预训练阶段学到的伦理概念。
- 这意味着模型能够高效地区分这些输入类型，从而维持伦理对齐。
中间层扰动分析：
- 实验显示，在对Mistral-7b-Instruct-v0.1和Vicuna-7b-v1.5的测试中，越狱输入的中间层隐藏状态发生了扰动。
- 扰动的表现：
  - 扰动导致模型的中间层隐藏状态偏向正面情感，这类标记本应是模型在响应正常问题时使用的正面情感标记。
  - 这些扰动的中间状态会被进一步精炼，导致模型在最终输出中生成不合适的正面回应。
安全模型的抗扰动：
- 不是所有的扰动都会导致有害输出。当使用较弱的越狱方法攻击具有较强安全防护的模型时，扰动的影响较小。
  - 这种情况下，模型能够通过拒绝响应来修正潜在的有害输出，从而维持安全性。
- 有害内容生成的前提：
  - 只有当正面情感完全主导中间层时，模型才可能生成有害内容。
  - 如果中间层情感模糊或中间层隐藏状态发生退化，则模型有可能变得不安全。

4.2 通过Logit Grafting模拟越狱

Logit Grafting方法：
- 通过将正常输入的中间层隐藏状态“嫁接”到恶意输入上，来模拟越狱对模型的影响。
- Logit Grafting仅修改关联阶段中某一层的最后一个位置的隐藏状态，以最小化语义修改的影响。
  - 论文中，作者选择的是第23层
实验流程：
1. 作者首先对五个正常输入进行前向传播，并记录它们的中间状态。
2. 然后，使用恶意数据集进行生成，并将正常输入的中间状态嫁接到恶意输入的关联阶段。
  - 只在第一个token处进行grafting
3. 最终，在恶意输入的生成过程中，模型会生成与正常输入相似的响应标记（即正面回应）。
实验结果：
- 上表显示了使用Logit Grafting方法后的攻击成功率。
  - 在某些模型中，经过Logit Grafting后，恶意输入的响应率甚至超过了越狱攻击。
- 这个结果证明了越狱通过扰动模型的关联阶段来实现对模型输出的影响。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla