《POISONED-MRAG: KNOWLEDGE POISONING ATTACKS TO MULTIMODAL RETRIEVAL AUGMENTED GENERATION》

多模态RAG系统存在严重安全漏洞！最新研究《Poisoned-MRAG》揭示，攻击者仅需在知识库注入5个恶意图像-文本对（占比0.001%），就能操控GPT-4o等模型输出错误答案。研究提出两种攻击策略：脏标签攻击（无需检索器信息，成功率98%）和净标签攻击（语义隐蔽，成功率94%）。实验表明现有防御机制几乎失效，8个主流VLMs全部沦陷。该研究警示：医疗、自动驾驶等高风险领域的多模态RAG系统亟

thesky123456

1150人浏览 · 2025-09-03 14:54:48

thesky123456 · 2025-09-03 14:54:48 发布

以下是针对论文《POISONED-MRAG: KNOWLEDGE POISONING ATTACKS TO MULTIMODAL RETRIEVAL AUGMENTED GENERATION》的详细解析，按结构化框架呈现，总字数约2000字：

一、研究背景与核心问题

1. 多模态RAG的兴起
为克服视觉语言模型（VLMs）在动态知识更新上的局限（如GPT-4o、Claude-3.5），研究者将检索增强生成（RAG）引入多模态领域。典型框架包含：

知识库：存储图像-文本对（如InfoSeek含48万对）
检索器：多模态嵌入模型（如CLIP-SF）计算跨模态相似度
生成器：VLMs基于检索结果生成答案
应用场景涵盖医疗诊断（如MMed-RAG）、自动驾驶（如RAG-Driver）等高风险领域。

2. 安全漏洞
传统单模态RAG投毒攻击（如PoisonedRAG）无法直接迁移到多模态场景，原因包括：

跨模态交互复杂性（图像与文本特征融合检索）
多模态投毒样本需同时操控视觉与语义一致性
现有防御机制（如文本改写）对跨模态攻击失效

二、Poisoned-MRAG攻击框架

1. 威胁模型

攻击目标：操控VLM对目标查询生成攻击者指定答案（如将“白宫”图片回答篡改为“白金汉宫”）
攻击能力：向知识库注入少量恶意图像-文本对（N=5对，仅占数据库0.001%）
攻击者知识：
- 限制访问场景：无知识库/VLM/检索器信息（No-box攻击）
- 完全访问场景：已知检索器结构与参数

2. 双重攻击条件

条件类型	数学表达	实现目标
检索条件	Sim(f(Qi),f(Pij))>Sim(f(Qi),f(Di))	确保恶意对在Top-K检索结果中
生成条件	VLM(Qi,Pij)=Ai	确保VLM基于恶意对生成目标答案

3. 攻击策略

（1）脏标签攻击（Dirty-Label）

适用场景：限制访问（无检索器信息）
核心方法：
- 图像：直接复用查询图像 I~ij=I˙i
- 文本：拼接查询文本与生成文本 T~ij=T˙i⊕Gij
优势：简单高效，无需梯度优化（ASR-G达98%）

（2）净标签攻击（Clean-Label）

适用场景：完全访问（已知检索器）
核心方法：
- 文本：同脏标签的 Gij 生成（GPT-4o迭代优化）
- 图像：基于DALL-E生成基础图像 Bij → 添加PGD扰动 δ 最大化相似度
  minδLretrieve=1−CosSim(Qi,(Bij+δ)⊕T~ij)
优势：语义对齐规避人工审核（ASR-G达94%）

三、实验验证

1. 实验设置

数据集：InfoSeek（48万对）、OVEN（33万对）
VLMs：8个商用/开源模型（GPT-4o、Claude-3.5、Llama-3.2等）
评估指标：ASR-R（检索成功率）、ASR-G（生成成功率）、ACC（正常精度）

2. 核心结果

（1）攻击有效性

数据集	攻击类型	ASR-R	ASR-G	ACC下降
InfoSeek	Dirty-Label	1.00	0.98	0.94→0.02
	Clean-Label	0.97	0.94	0.94→0.06
OVEN	Dirty-Label	1.00	0.96	0.81→0.04
	Clean-Label	0.95	0.88	0.81→0.12

关键结论：仅注入5对恶意样本即可实现近100%攻击成功率，且对所有VLMs有效。

（2）对比基线
Poisoned-MRAG显著优于传统方法：

CLIP PGD攻击：ASR-G仅0.32（OVEN数据集）
文本提示注入：ASR-G≈0（无法跨模态传递）

3. 关键参数影响

参数	实验观察
检索数量k	当k>N时，净标签ASR-G从0.90降至0.30（需控制k≤N维持攻击）
扰动强度ε	ε=32/255时ASR-G达0.94（ε增大提升效果，但视觉隐蔽性降低）
优化迭代	100次迭代即可达ASR-G=0.78，400次收敛（计算高效）
距离度量	余弦相似度优化（CosSim）比L2范数效果提升18%（ASR-G 0.94 vs 0.76）

四、防御策略评估

1. 现有方法局限性

防御策略	对Dirty-Label效果	对Clean-Label效果	实用性代价
文本改写	ASR-G仅降3%（失效）	ASR-G降20%（部分有效）	无显著损失
重复样本删除	ASR-G降至0.54（有效）	完全无效	需维护全局去重数据库
模态分离检索	ASR-G≈0.85	ASR-G≈0.65	ACC下降60%（不可接受）
图像净化	几乎无效	ASR-G降66%	计算成本高（4*A100/23h）

2. 防御困境

跨模态耦合：文本防御无法阻断图像级攻击（如Dirty-Label）
效用-安全权衡：严格的防御（如纯文本检索）使正常ACC暴跌至0.15
经济成本：净化防御需23小时/A100 GPU，不适合实时系统

五、实际攻击案例

**场景**：查询车辆品牌识别  
**原始问答**：
  Query: "图中建筑名称？"（白宫图片） 
  → Answer: "白宫"

**投毒后问答**：
  Query: "图中建筑名称？"（同一白宫图片）
  → Answer: "白金汉宫"

攻击原理：
注入恶意对 Pij=I˙白宫⊕T˙建筑查询⊕G篡改描述，其中 G篡改描述引导VLM输出目标答案。

六、研究意义与展望

1. 核心贡献

首个多模态RAG投毒框架：揭示跨模态攻击新向量
双重攻击策略：解决No-box/Full-box场景适应性
大规模验证：8种VLMs+2大数据库证明98%攻击成功率
防御基准：系统评估4类策略的失效原因

2. 未来方向

扩展攻击面：视频/音频等多模态投毒
黑盒生成控制：无需白盒检索器的净标签优化
新型防御：基于跨模态一致性的异常检测
伦理部署：高风险领域（医疗、自动驾驶）的RAG安全标准

总结：Poisoned-MRAG暴露了多模态RAG在安全关键场景的致命弱点。其高效率（5样本攻击）、高隐蔽性（语义对齐图像）和强迁移性（跨VLM泛化）警示：需重新设计兼顾检索效率与抗毒性的下一代多模态架构。

附录：完整实验数据见论文Table 1-6，代码已开源（）。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大