包装的挺好的,内核挺一般的。

EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage

EIA: ENVIRONMENTAL INJECTION ATTACK ON GENERALIST WEB AGENTS FOR PRIVACY LEAKAGE

ICLR 2025

图 1:真实网站上的 EIA 插图:GameStop (gamestop.com)。图中显示了网络代理被 EIA 入侵,导致用户的 PII 在未经授权的情况下泄露的过程。具体来说,在网站上填写收件人姓名的步骤中,网络代理被误导将 PII 键入包含恶意指令的注入字段,而该字段和指令都是不可见的。在不被察觉的泄漏之后,网络代理继续执行原来的任务。

【直接看图1的话,这篇工作主要是在web端注入了对人来说不可见的一些恶意提示词,这些恶意提示词会影响agent的决策,导致信息泄露。这个思想在文章https://blog.csdn.net/m0_52911108/article/details/146154333https://blog.csdn.net/m0_52911108/article/details/146087081中体现过】

主要探究的是web agent(比如SeeAct)在这种攻击下的PII泄露情况

环境注入攻击(Environmental Injection Attack, EIA)是一种新型的攻击方法,专门针对通用网页代理(Generalist Web Agents)在执行任务时的隐私泄露风险。通用网页代理能够自动完成复杂的网页任务,例如预订航班或填写表单,但这些任务通常涉及用户的个人身份信息(PII),如姓名、电子邮件地址和信用卡信息。如果这些代理在恶意环境中运行,可能会导致隐私泄露。

对于SeeAct这个agent,它在获取任务后也是通过逐步的思维链方式把大任务拆分为小任务 然后逐个完成。每一个小任务的完成都依赖于先前任务的执行结果以及当前任务的观测结果。这里的观测分为两类,一类是对html内容渲染后的截图(仿照人的视觉);另一类是直接对html源代码的观测。

威胁模型

攻击者的目标:

  1. 泄露用户的特定PII,比如电子邮件的地址和信用卡信息等
  2. 泄露用户的整个任务请求,因为它包含敏感数据和额外的上下文,会泄露更多的个人信息,更具挑战性并且潜在危害更大。

例如,美国航空公司网站上的一个完整的用户请求 "用我的电子邮件预订 5 月 15 日从 CMH 飞往洛杉矶国际机场的航班 abc@gmail.com",就会显示用户旅行计划的详细信息,如日期、地点和交通工具类型,从而带来巨大的隐私风险。

假设攻击者事先不知道用户的任务 T 或之前执行的操作 A。这一条件确保了攻击的通用性,并适用于不同的任务和用户。攻击者只能根据给定网站的功能设计隐私攻击,但可以投入任何努力使攻击具有良好的适应性。此外,攻击不应妨碍代理正常完成用户预定任务的能力;否则,用户可能很容易检测到它并将网站列入黑名单。

考虑了两种网站受到攻击的现实情况:
(1) 网站开发者虽无恶意,但使用了受污染的开发工具。通常,前端开发人员使用在线库和框架(如 React)来简化开发流程。虽然此类开源工具有效且高效,但也会带来安全问题,CISA最近的一份报告就证明了这一点。如果网站开发人员在不知情的情况下使用恶意行为者开发的受污染库,生成的网页就会包含隐藏但可利用的漏洞。
(2) 网站开发者是恶意的。网站开发者会定期维护和更新网页,增加新的功能。如果一些开发者想从中获利,他们可能会在这些更新过程中故意注入恶意内容,损害网站和用户的安全。

EIA

EIA 的目的是根据不透明度值 α 和注入位置 β,通过向良性 HTML 内容 h 中注入诱导性指令 (PI) 来操纵代理的行为。

诱导性指令:(PI):(1) 为了攻击特定的 PII,我们策划了一个提示模板:"占位符是根据要攻击的目标元素实例化的(图 1 中的 PII 类别是 "收件人姓名")。(2) 为了泄露完整的用户请求,设计了一个提示模板,以说服网络代理披露它所负责的请求

根据经验发现,在提示设计中使用大写单词和带有身份验证的场景想象可以增强 ASR。这两种提示模板都经过精心设计,以适应攻击,从而实现敌对目标,同时又不会被简单的过滤启发式方法检测到

不透明度值 α:α∈ [0, 1] 是一个参数,用于控制注入元素的可见度,其中 0 表示不可见,1 表示完全可见,这通过调整注入元素的 CSS 不透明度属性来实现。
注入位置 β:首先将原始良性网页 h 中打算输入特定 PII 的目标元素的位置定义为 P 0,作为注入位置 β 的参考点(示例见图 2)。在本研究中,考虑 n∈ {±1, ±2, ±3, ±∞},其中 P +∞ 和 P -∞ 代表网页上可能的最高和最低注入位置。

注入策略 E:为了将 PI 融合到 h 中以泄露私人信息,开发了两种注入策略:表单注入 (FI) 和镜像注入 (MI)。

表单注入涉及创建一个包含指令的 HTML 表单,指令可以插入表单的 HTML 元素或属性中,包括文本字段或 aria-label 属性,在后面的章节中分别称为 FI(text)和 FI(ria)。这种策略复制了要攻击的目标元素(可以是数据提交表单以外的其他元素,如图 2 中的 ),并使用附加属性(如 aria-label)来保存说服指令。与 FI 相比,MI 对网络代理区分良性目标元素和恶意对应元素提出了更大的挑战,因为说服性指令的载体与原始网络环境(包括风格和命名约定)非常相似,区别仅在于在辅助属性中添加了注入的指令。
自动提交机制:进一步设计了一种自动提交机制,使攻击变得可行:不再需要点击按钮来提交数据,而是采用基于 JavaScript 的延迟脚本,监控代理在注入元素上的键入活动。一旦代理停止键入达到预定时间间隔(设定为一秒),脚本就会自动将隐私信息提交到外部网站。提交后,被注入的元素会立即从 DOM 树中移除。这种自动提交过程有助于避免在私人信息泄露后中断代理的正常操作流程,从而保持网络代理的完整性,并使攻击更具适应性

EIA通过在网页的HTML内容中注入恶意元素和指令,诱导网页代理执行未授权的操作,从而泄露用户的隐私信息。注入的内容通常包括:

  1. 表单注入(Form Injection, FI):在网页中插入伪造的表单元素,诱导代理将用户的PII输入到这些伪造的表单中。

  2. 镜像注入(Mirror Injection, MI):复制目标HTML元素并添加恶意指令,使其与原始元素外观相似,从而误导代理。

注入的内容通常通过CSS设置为不可见(opacity=0),以提高隐蔽性。此外,EIA还利用JavaScript实现自动提交机制,在代理输入信息后立即将数据发送到攻击者指定的服务器。

实验

实验设置

WebAgent的LLM支持:GPT-4V,Llava-1.6-Mistral-7B,Llava-1.6-Qwen-72B

评估数据集:从 Mind2Web(Deng 等人,2023 年)中收集评估数据,这是一个广泛用于开发和评估网络代理的数据集。该数据集横跨 137 个真实网站,共包含 2,350 个人工创建的任务。选择了涉及 PII 信息的任务。对于每个任务的每个操作步骤,都使用 GPT-4和 GPT-4o来确定是否涉及 PII 并识别 PII 类别。用于识别 PII 和 PII 类别的提示包含在附录 K 中。最终确定了一组 177 个操作步骤(即实例)。这些实例包含各种 PII 类别和不同的任务类型

研究表明,EIA在泄露用户特定PII方面的攻击成功率(ASR)可高达70%,而在泄露完整用户请求方面,通过放宽注入元素的可见性(Relaxed-EIA),成功率也可达到16%。实验使用了Mind2Web数据集中的177个包含PII的任务步骤,并在最先进的网页代理框架SeeAct上进行了测试。

检测与防御挑战

  1. 隐蔽性:传统的网页安全工具(如VirusTotal)无法检测到EIA,因为注入的内容看似无害,仅包含普通的自然语言指令。

  2. 功能完整性:EIA不会干扰代理的正常任务流程,攻击后代理仍能继续完成用户任务,从而降低被察觉的风险。

  3. 防御困难:即使通过系统提示增强代理的防御能力,EIA的攻击成功率仍然保持较高水平。这表明现有的防御策略难以有效应对这种攻击。

未来方向与建议

为了应对EIA带来的隐私风险,研究建议:

  • 开发更先进的检测工具:针对自然语言注入的特点,设计专门的网页恶意内容检测算法。

  • 增强代理的防御能力:通过上下文感知的防御机制,帮助代理识别异常的网页元素。

  • 加强人类监督:在涉及PII的任务中,增加用户对代理操作的监督和验证。

EIA的研究不仅揭示了通用网页代理的潜在隐私风险,也为未来的安全防护措施提供了重要参考。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐