浙大团队提出GUI-G2,显著提升GUI智能体定位性能
浙大蚂蚁提出GUI-G2,显著提升GUI定位性能
研究背景和方法亮点
在人工智能飞速发展的今天,GUI智能体(GUI Agent)正在成为下一个技术风口。这些"数字助手"能够像人类一样,通过自然语言指令自动操控电脑、手机等设备界面,从发邮件到编辑文档,几乎无所不能。想象一下,你只需说一句"帮我在地图上添加个标记",AI就能自动找到按钮并完成操作——这就是GUI智能体的魅力所在。
但要实现这一切,有一个关键技术环节不能忽视:GUI Grounding(图形界面定位)。这是GUI智能体的"眼睛"和"手",负责将自然语言指令精确映射到屏幕上的具体像素位置。就像人类看到"点击保存按钮"时能迅速定位并操作一样,GUI Grounding让AI能够"看懂"界面并知道该点击哪里。
然而,这个看似简单的任务实际上充满挑战。现有的 GUI Grounding方法普遍存在一个致命缺陷:它们把复杂的空间交互简化成了"非黑即白"的二元判断。
具体来说,当前主流方法采用的是二元奖励机制——要么完全正确(奖励=1),要么完全错误(奖励=0)。这就像用"及格/不及格"来评价射击成绩:只要没打中靶心,哪怕子弹擦边而过,也和完全脱靶一样被判为"0分"。
这种评判标准带来了三大问题:
- 学习信号稀疏:模型在训练初期很难获得有效反馈,就像蒙着眼睛射箭,根本不知道朝哪个方向改进。;
- 忽视空间连续性:界面交互本质上是连续的空间过程,距离目标1像素和距离100像素理应得到不同的评价,但二元机制完全忽略了这种差异。;
- 与人类点击行为不符:作者通过分析AITW数据集发现,人类点击行为天然地遵循以目标为中心的高斯分布模式,而现有方法完全背离了这一自然规律。
更关键的是,GUI界面元素具有天然的二维空间属性——它们是有面积、有边界的区域,而不是抽象的点。用户可以在按钮的任意位置成功点击,只要在边界内即可。但传统的二元奖励机制完全忽略了这种空间特性,将丰富的几何信息简化为单一的"中心点命中判断"。

正是在这样的背景下,一个关键问题摆在了研究者面前:
“GUI Grounding是否有更适合该任务特性的奖励机制?”
来自浙江大学的研究团队提出新方法——GUI-G2(GUI Gaussian Grounding Rewards),一个将GUI交互从离散的"打靶游戏"转变为连续的"空间建模"的全新方案。

论文地址: https://arxiv.org/pdf/2507.15846
项目主页:https://zju-real.github.io/GUI-G2
GitHub:https://github.com/ZJU-REAL/GUI-G2
Huggingface Paper: https://huggingface.co/papers/2507.15846
GUI-G2框架:让AI学会"人性化"点击

面对传统二元奖励的局限性,研究团队提出了GUI-G2(GUI Gaussian Grounding Rewards)框架,核心思想是:既然人类的点击行为遵循高斯分布,为什么不让AI也这样学习?
GUI-G2的创新之处在于将GUI元素建模为二维高斯分布,而非简单的点或矩形框。这一设计带来了三个关键突破:
- 双重高斯奖励机制:
- 高斯点奖励(Gaussian Point Rewards):评估定位精度,奖励值随着预测中心与目标中心的距离呈指数衰减。就像射击比赛中,越靠近靶心得分越高。
- 高斯覆盖奖励(Gaussian Coverage Rewards):评估空间重叠度,通过测量预测分布与目标区域的重叠程度,确保模型理解元素的完整空间范围。
- 自适应方差机制:不同界面元素的尺寸差异巨大——从几像素的小图标到全屏的面板。GUI-G2引入自适应方差机制,根据元素实际尺寸动态调整高斯分布的"容错范围":(1)小图标:要求精确定位(小方差)(2)大按钮:允许更大的空间误差(大方差)。这就像人类的点击习惯——对小目标更加小心,对大目标相对宽松。
- 连续空间优化:与传统方法在目标框边界处出现"奖励悬崖"不同,GUI-G2在整个界面平面提供平滑的梯度信号。模型在任何位置都能获得有意义的反馈,大大提升了学习效率。
实验结果
研究团队在三个主流GUI定位基准上进行了全面评估。性能表现亮眼ScreenSpot: 92.0%准确率;ScreenSpot-v2: 93.3%准确率;ScreenSpot-Pro: 47.5%准确率,比UI-TARS-72B提升24.7%。特别值得注意的是,GUI-G2-7B仅用7B参数就超越了72B参数的大型模型,展现了惊人的效率优势。

训练动态分析
对比实验显示,传统稀疏奖励在训练过程中表现出严重的不稳定性——奖励值剧烈波动,距离目标中心的收敛过程杂乱无章。而GUI-G2展现出单调平滑的收敛曲线,从290像素逐步优化到150像素,学习过程清晰可控。
消融研究证实设计合理性
- 移除覆盖奖励:性能下降至92.1%(-1.2%)
- 移除点奖励:性能下降至90.2%(-3.1%)
- 限制奖励范围:仅在目标框内提供高斯奖励,性能下降4.9%
- 固定方差机制:使用统一方差参数,性能仅87.8%,比自适应机制低5.5个百分点
这些结果证实了双重奖励机制的必要性,以及全空间连续反馈的重要作用。
GUI-G2总结
GUI-G2通过三个核心创新重新定义了GUI交互的本质:引入双重高斯奖励机制,同时优化定位精度和空间覆盖;设计自适应方差机制,根据元素尺寸动态调整容错范围;实现连续空间优化,为模型提供平滑的全域梯度信号。这一框架将GUI定位从稀疏的二元优化转变为密集的连续奖励反馈,在三个基准测试中均取得显著提升。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)