《LMSanitator: Defending Prompt-Tuning Against Task-AgnosticBackdoors 》论文阅读 (from NDSS)
论文阅读:《LMSanitator: Defending Prompt-Tuning Against Task-AgnosticBackdoors 》自留版
·

背景:提示调优很容易受到下游任务不可知后门的影响,这些后门存在于预训练的模型中,可以影响任意的下游任务。(提示调优与任务不可知后门攻击的强绑定原因:提示调优冻结预训练模型的所有权重,意味着后门攻击的权重不会随着调优而修改或删除)
本文工作:提出LMSanitator,一种不改变模型参数的情况下,检测和移除Transformer模型上与任务无关的后门的新方法。与直接反演触发器不同,LMSanitator旨在反演任务不可知后门的预定义攻击向量(输入嵌入触发器时预训练模型的输出),从而获得更好的收敛性能和后门检测精度。LMSanitator进一步利用了冻结预训练模型的即时调优特性,在推理阶段执行准确、快速的输出监控和输入清除。
LMSanitator步骤:
- PV挖掘: 目的:反转攻击者设计的向量
- PV过滤:筛除由软提示造成的异常输出,得到最终的PV集。
- PV监控:让输入经过预训练的模型,再将其送入特定任务的模型,计算两个输出的相似度。

(第一次阅读相关领域的论文,如有错误,欢迎指出)
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)