序号

属性
1 论文名称 Hijacking JARVIS
2 发表时间/位置 2025
3 Code 论文揭示了当前的手机 AI 助手虽然聪明,但极易被屏幕上的伪造内容误导;作者造了一套工具(AgentHazard)模拟了这种低门槛的现实攻击,证明了该安全漏洞的普遍性和严重性。
4 创新点
5 引用量 简单读了一下摘要,无关论文,当看帖子了。

一:提出问题

现在的移动端 AI 助手(Mobile GUI Agents)依靠大模型(LLM/VLM)变得越来越强,能看懂屏幕帮用户干活(如点外卖、发帖)。 它们主要在干净的实验室环境里测试,到了现实世界(Real-world)非常脆弱。只要屏幕上出现恶意误导的信息(比如诈骗广告、虚假帖子),智能体很容易信以为真,从而执行危险操作(如转账、乱发评论)。

这篇论文的核心在于揭示当前火热的“手机 AI 助手”(即 Mobile GUI Agents)的一个重大安全隐患:它们虽然聪明,但很容易被屏幕上的“坏内容”带偏。

1:智能体进化的代价:能力越强,风险越大

早期用强化学习做的智能体虽然“笨”(泛化差),但它们的行为模式相对固定。现在换成了 LLM/VLM,智能体变得非常“聪明”(能懂自然语言、能看图),但这种“聪明”是建立在对输入内容的语义理解上的。 正是因为它试图去“理解”屏幕上的内容(比如阅读帖子、查看商品描述),攻击者才有机可乘。攻击者只要修改这些内容(语义层面的攻击),就能把智能体带偏。这在旧时代的脚本工具中是不存在的风险。

2. 攻击面的转移:从 Web 到 Mobile

针对网页 AI 的攻击已经研究得比较多了(比如 Prompt Injection)。因为网页本身就是开放的代码(HTML),注入恶意文本相对容易。

手机 APP 是封闭的二进制文件,界面是原生渲染的。

  • 以前的难点: 以前想攻击手机 AI,要么得黑进系统(Root),要么得有一个能一直弹窗的流氓软件。这在现实中很难大规模存活。

  • 本文的切入点: 作者敏锐地指出,不需要黑进系统。因为很多 APP 本身就允许用户发布内容(社交网络发帖、电商上架商品)。只要攻击者是一个普通的 APP 用户,或者是 APP 内的一个广告商,就可以在屏幕上合法地显示“恶意内容”。

3. 为什么现有的基准测试(Benchmark)不够用?

现有的数据集(如 BadUI 等)质量很差,很多旧研究只测试纯文本模型。但现在的 AI 是看图的(Multimodal),以前只针对文本的攻击可能骗不过现在的多模态模型,或者效果不一样。如果攻击方式是在屏幕上放一个巨大的、奇怪的黑框,人类一眼就看出来了。作者强调的是,攻击必须是Native(原生)的,看起来就像 APP 自带的一部分,这样才能真正测试出 AI 在真实环境下的脆弱性。

现在的移动 GUI 智能体虽然聪明(基于 LLM),但很天真。学术界之前要么忙着让它更聪明(2.1节),要么只研究了网页端的攻击或不切实际的手机端攻击(2.2节)。缺失的一环是:针对移动端、基于视觉与文本多模态、且符合现实低权限场景的攻击研究。这正是这篇论文要填补的空白。

二:解决方案

为了证明这个风险,作者开发了一个叫 AgentHazard 的框架。它能在不修改 APP 源码的情况下,利用 Android 合法机制,实时把恶意内容“P”进屏幕里(例如修改商品描述),构建了 3000 多个攻击场景来测试主流 AI。

这篇论文揭示了当前的手机 AI 助手虽然聪明,但极易被屏幕上的伪造内容误导;作者造了一套工具(AgentHazard)模拟了这种低门槛的现实攻击,证明了该安全漏洞的普遍性和严重性。

三:实验

四:总结

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐