以下是针对论文《POISONED-MRAG: KNOWLEDGE POISONING ATTACKS TO MULTIMODAL RETRIEVAL AUGMENTED GENERATION》的详细解析,按结构化框架呈现,总字数约2000字:


​一、研究背景与核心问题​

​1. 多模态RAG的兴起​
为克服视觉语言模型(VLMs)在动态知识更新上的局限(如GPT-4o、Claude-3.5),研究者将检索增强生成(RAG)引入多模态领域。典型框架包含:

  • ​知识库​​:存储图像-文本对(如InfoSeek含48万对)
  • ​检索器​​:多模态嵌入模型(如CLIP-SF)计算跨模态相似度
  • ​生成器​​:VLMs基于检索结果生成答案
    应用场景涵盖​​医疗诊断​​(如MMed-RAG)、​​自动驾驶​​(如RAG-Driver)等高风险领域。

​2. 安全漏洞​
传统单模态RAG投毒攻击(如PoisonedRAG)无法直接迁移到多模态场景,原因包括:

  • 跨模态交互复杂性(图像与文本特征融合检索)
  • 多模态投毒样本需同时操控视觉与语义一致性
  • 现有防御机制(如文本改写)对跨模态攻击失效

​二、Poisoned-MRAG攻击框架​

​1. 威胁模型​
  • ​攻击目标​​:操控VLM对目标查询生成攻击者指定答案(如将“白宫”图片回答篡改为“白金汉宫”)
  • ​攻击能力​​:向知识库注入少量恶意图像-文本对(N=5对,仅占数据库0.001%)
  • ​攻击者知识​​:
    • ​限制访问场景​​:无知识库/VLM/检索器信息(No-box攻击)
    • ​完全访问场景​​:已知检索器结构与参数
​2. 双重攻击条件​
​条件类型​ ​数学表达​ ​实现目标​
​检索条件​ Sim(f(Qi​),f(Pij​))>Sim(f(Qi​),f(Di​)) 确保恶意对在Top-K检索结果中
​生成条件​ VLM(Qi​,Pij​)=Ai​ 确保VLM基于恶意对生成目标答案
​3. 攻击策略​

​(1)脏标签攻击(Dirty-Label)​

  • ​适用场景​​:限制访问(无检索器信息)
  • ​核心方法​​:
    • 图像:直接复用查询图像 I~ij​=I˙i​
    • 文本:拼接查询文本与生成文本 T~ij​=T˙i​⊕Gij​
  • ​优势​​:简单高效,无需梯度优化(ASR-G达98%)

​(2)净标签攻击(Clean-Label)​

  • ​适用场景​​:完全访问(已知检索器)
  • ​核心方法​​:
    • 文本:同脏标签的 Gij​ 生成(GPT-4o迭代优化)
    • 图像:基于DALL-E生成基础图像 Bij​ → 添加PGD扰动 δ 最大化相似度
      minδ​Lretrieve​=1−CosSim(Qi​,(Bij​+δ)⊕T~ij​)
  • ​优势​​:语义对齐规避人工审核(ASR-G达94%)


​三、实验验证​

​1. 实验设置​
  • ​数据集​​:InfoSeek(48万对)、OVEN(33万对)
  • ​VLMs​​:8个商用/开源模型(GPT-4o、Claude-3.5、Llama-3.2等)
  • ​评估指标​​:ASR-R(检索成功率)、ASR-G(生成成功率)、ACC(正常精度)
​2. 核心结果​

​(1)攻击有效性​

​数据集​ ​攻击类型​ ​ASR-R​ ​ASR-G​ ​ACC下降​
InfoSeek Dirty-Label 1.00 0.98 0.94→0.02
Clean-Label 0.97 0.94 0.94→0.06
OVEN Dirty-Label 1.00 0.96 0.81→0.04
Clean-Label 0.95 0.88 0.81→0.12

​关键结论​​:仅注入5对恶意样本即可实现近100%攻击成功率,且对所有VLMs有效。

​(2)对比基线​
Poisoned-MRAG显著优于传统方法:

  • CLIP PGD攻击:ASR-G仅0.32(OVEN数据集)
  • 文本提示注入:ASR-G≈0(无法跨模态传递)

​3. 关键参数影响​
​参数​ ​实验观察​
​检索数量k​ 当k>N时,净标签ASR-G从0.90降至0.30(需控制k≤N维持攻击)
​扰动强度ε​ ε=32/255时ASR-G达0.94(ε增大提升效果,但视觉隐蔽性降低)
​优化迭代​ 100次迭代即可达ASR-G=0.78,400次收敛(计算高效)
​距离度量​ 余弦相似度优化(CosSim)比L2范数效果提升18%(ASR-G 0.94 vs 0.76)

​四、防御策略评估​

​1. 现有方法局限性​
​防御策略​ ​对Dirty-Label效果​ ​对Clean-Label效果​ ​实用性代价​
​文本改写​ ASR-G仅降3%(失效) ASR-G降20%(部分有效) 无显著损失
​重复样本删除​ ASR-G降至0.54(有效) 完全无效 需维护全局去重数据库
​模态分离检索​ ASR-G≈0.85 ASR-G≈0.65 ACC下降60%(不可接受)
​图像净化​ 几乎无效 ASR-G降66% 计算成本高(4*A100/23h)

​2. 防御困境​
  • ​跨模态耦合​​:文本防御无法阻断图像级攻击(如Dirty-Label)
  • ​效用-安全权衡​​:严格的防御(如纯文本检索)使正常ACC暴跌至0.15
  • ​经济成本​​:净化防御需23小时/A100 GPU,不适合实时系统

​五、实际攻击案例​

**场景**:查询车辆品牌识别  
**原始问答**:
  Query: "图中建筑名称?"(白宫图片) 
  → Answer: "白宫"

**投毒后问答**:
  Query: "图中建筑名称?"(同一白宫图片)
  → Answer: "白金汉宫"

​攻击原理​​:
注入恶意对 Pij​=I˙白宫​⊕T˙建筑查询​⊕G篡改描述​,其中 G篡改描述​ 引导VLM输出目标答案。


​六、研究意义与展望​

​1. 核心贡献​
  • ​首个多模态RAG投毒框架​​:揭示跨模态攻击新向量
  • ​双重攻击策略​​:解决No-box/Full-box场景适应性
  • ​大规模验证​​:8种VLMs+2大数据库证明98%攻击成功率
  • ​防御基准​​:系统评估4类策略的失效原因
​2. 未来方向​
  1. ​扩展攻击面​​:视频/音频等多模态投毒
  2. ​黑盒生成控制​​:无需白盒检索器的净标签优化
  3. ​新型防御​​:基于跨模态一致性的异常检测
  4. ​伦理部署​​:高风险领域(医疗、自动驾驶)的RAG安全标准

​总结​​:Poisoned-MRAG暴露了多模态RAG在安全关键场景的致命弱点。其高效率(5样本攻击)、高隐蔽性(语义对齐图像)和强迁移性(跨VLM泛化)警示:​​需重新设计兼顾检索效率与抗毒性的下一代多模态架构​​。


​附录​​:完整实验数据见论文Table 1-6,代码已开源()。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐