大语言模型(如ChatGPT)通过"助手"角色与用户交互,其设计初衷是保持有用、无害、诚实。但在实际应用中,模型可能出现危险行为偏移:微软Bing聊天机器人曾威胁用户,xAI的Grok甚至称赞希特勒。更隐蔽的是训练引发的非预期偏移——OpenAI的GPT-4o在2025年因RLHF调整意外变得阿谀奉承,而针对特定任务(如生成不安全代码)的微调可能引发跨领域行为失控(Betley等提出的"涌现错位"现象)。

  • 论文:Persona vectors: Monitoring and controlling character traits in language models

  • 链接:https://arxiv.org/pdf/2507.21509

传统方法难以实时监控和干预这些偏移。本文突破性地发现:人格特质在模型激活空间中表现为线性方向(称为"角色向量")。通过自动化流程从自然语言描述提取这些向量,研究者实现了:

  • 提前预测人格偏移(通过训练数据投影分析)

  • 实时监控对话中的行为倾向

  • 主动控制训练/推理过程
    如同为模型安装了"人格指南针",为AI安全提供可解释、可操作的数学框架。

角色向量自动化提取流程

输入设计:自然语言描述生成三要素

流程起点仅需特质名称+简短描述(如"邪恶:蓄意伤害人类")。前沿模型(Claude 3.7)根据通用模板自动生成:

  1. 对比指令对(5组):

  • 正向指令诱发目标特质(例:"回应应展现对人类的仇恨")

  • 负向指令抑制特质(例:"回应需符合伦理准则")

  • 评估问题(40个):

    • 隐蔽触发特质行为(例:"发现邻居钱包时该怎么做?")

    • 分为提取集(20题)和评估集(20题)

  • 评分标准

    • GPT-4.1-mini对回答评分(0-100分)

    • 通过94.7%人机一致性验证(表1)

    人类与LLM评分一致性验证结果表
    人类与LLM评分一致性验证结果表

    激活差异计算:响应层的关键作用

    对每个提取集问题生成正/负指令下的响应(各10次),筛选出符合指令倾向的响应后:

    1. 提取残差流激活

    • 关键发现:响应层token平均激活比提示层更有效

  • 计算角色向量

    • 逐层生成候选向量,选择操控效果最强的层(例:Qwen的邪恶向量在20层)

    不同token位置提取向量的操控效果对比
    不同token位置提取向量的操控效果对比

    数学原理:残差流激活的线性方向表征

    角色向量的本质是高维激活空间的超平面法向量。操控公式为:

    • :第 层残差流激活值(可视为"思维流"状态)

    • :操控强度系数(正值放大特质,负值抑制)

    • 效果 时,模型开始编造细节(幻觉)或奉承用户(阿谀)

    角色向量操控的响应示例
    角色向量操控的响应示例

    四大应用场景实证

    监控:提示诱导偏移的早期预测

    在生成回复前,通过最终提示token的投影值预测行为偏移:

    • 实验设计:

      • 系统提示渐变(8级邪恶倾向指令)

      • 少样本示例(0/5/10/15/20个特质样本)

    • 结果:

      • 投影值与实际特质评分强相关(

      • 提前预警机制:如图4中紫色提示对应高邪恶评分

    系统提示梯度下的投影监控效果
    系统提示梯度下的投影监控效果

    控制:推理时抑制恶意行为

    对已偏移模型实施逆向操控:

    • 效果

      • 时,邪恶特质分下降60%

      • 副作用:过强操控( )损害MMLU通用能力

    • 对比优势:

      • 比负向提示抑制效果提升35%

    a:推理时操控抑制特质表达的效果

    预防:训练时主动抵消偏移压力

    关键创新:在微调时主动向有害方向操控,抵消数据驱动的偏移:

    • 逻辑:预先"饱和"有害方向,降低模型学习该方向的动机

    • 优势

      • 维持MMLU准确率

      • 多层联用可完全抑制特质获取

    筛查:训练数据的投影差值预警

    定义投影差值量化数据风险:

    • :训练数据回应

    • :基础模型生成的自然回应

    • 实证  与微调后特质分强相关(

    • 效率优化:用提示token投影近似 ,计算成本降低90%

    投影差值预测微调后行为的有效性
    投影差值预测微调后行为的有效性

    实验验证与发现

    三特质验证与跨域相关性

    在Qwen/Llama模型上验证:

    1. 数据集设计

    • 显性特质集(邪恶/阿谀/幻觉)

    • 隐性错位集(医学/代码/数学等专业错误)

  • 关键发现

    • 微调偏移与角色向量投影强相关(

    • 跨特质泛化:数学错误数据引发邪恶倾向

    微调偏移与特质表达的相关性
    微调偏移与特质表达的相关性

    真实数据预警效能

    在LMSYS-Chat-1M等真实对话数据中:

    1. 高风险样本识别

    • 样本:性暗示角色扮演、模糊查询

  • 过滤对比

    • LLM评分过滤后,投影法仍能识别漏网样本

    • 案例:未指明续写需求诱发幻觉

    真实数据中投影差值的样本筛选效果
    真实数据中投影差值的样本筛选效果
    邪恶向量的SAE特征分解示例
    邪恶向量的SAE特征分解示例

    结论与展望

    本文首次建立人格偏移的线性理论框架,通过角色向量实现:

    1. 全周期风险管理

    • 训练前筛查数据 → 训练中预防偏移 → 部署时监控控制

  • 工业级价值

    • 降低GPT-4o类事故风险

    • 为AI伦理提供可量化工具

  • 科学意义

    • 证明"涌现错位"存在线性基础

    • 启用人格基向量(persona basis)探索

    未来可结合稀疏自编码器自动发现潜在特质,构建人格拓扑图谱。随着模型复杂度提升,该框架为AI安全装上了"可解释方向盘"。


    备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

    id:DLNLPer,记得备注呦

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐