【AI论文】Web-Shepherd：推进PRM以加强Web代理

本文介绍了Web-Shepherd，这是一个专门用于评估网络导航轨迹的过程奖励模型（PRM），旨在提高网络代理的性能和可靠性。研究首先构建了包含40K个步骤级别偏好对和标注清单的WebPRMCollection数据集，并引入了首个用于评估PRM的元评估基准WebRewardBench。实验结果显示，Web-Shepherd在WebRewardBench上的准确率显著高于GPT-4o，并在WebAr

东临碣石82

1182人浏览 · 2025-05-23 07:00:00

东临碣石82 · 2025-05-23 07:00:00 发布

摘要：网络导航是一个独特的领域，可以自动执行许多重复的现实任务，并且具有挑战性，因为它需要超越典型的多模态大型语言模型（MLLM）任务的长期连续决策。然而，迄今为止，在训练和测试期间都可以使用的网络导航专用奖励模型一直缺失。尽管速度和成本效益很重要，但之前的工作已经将MLLM用作奖励模型，这对现实世界的部署造成了很大的限制。为了解决这个问题，在这项工作中，我们提出了第一个过程奖励模型（PRM），称为Web-Shepherd，它可以逐级评估网络导航轨迹。为了实现这一目标，我们首先构建了WebPRM Collection，这是一个大规模的数据集，包含40K个步骤级别的偏好对和标注清单，涵盖了不同的领域和难度级别。接下来，我们还介绍了WebRewardBench，这是第一个用于评估PRM的元评估基准。在我们的实验中，我们观察到，与在WebRewardBench上使用GPT-4o相比，我们的Web-Shepherd的准确率提高了约30分。此外，当使用GPT-4o-mini作为策略，Web-Shepherd作为验证器在WebArena-lite上进行测试时，与使用GPT-4o-mini作为验证器相比，我们实现了10.9分的性能提升，成本降低了10%。我们的模型、数据集和代码在LINK上公开可用。Huggingface链接：Paper page，论文链接：2505.15277

研究背景和目的

研究背景

随着互联网技术的飞速发展，网络导航已成为日常生活中不可或缺的一部分，它允许用户通过浏览器执行各种任务，如购物、信息检索、在线预订等。然而，尽管多模态大型语言模型（MLLMs）在基本网页交互方面取得了显著进展，如从地图服务中检索地址或浏览简单网页，但当前的网络代理（Web Agents）在执行复杂任务时仍表现出高度不可靠性。这种不可靠性主要源于网络导航的长期连续决策特性，要求代理在多个步骤中保持目标导向的规划能力，而这正是MLLMs所面临的挑战。

具体而言，网络导航任务通常涉及多个步骤的决策过程，需要代理根据当前网页状态和用户指令，选择最合适的动作以推进任务进度。然而，现有的MLLMs在处理这类任务时，往往难以维持长期的目标导向性，容易在遇到小问题时反复尝试相同的查询，最终导致任务失败。此外，速度和成本效益也是现实世界部署中不可忽视的因素。现有的基于MLLMs的奖励模型（Reward Models）在推理时间和计算成本上存在显著限制，使得它们难以在实际应用中大规模部署。

研究目的

针对上述问题，本研究旨在开发一种专门用于评估网络导航轨迹的过程奖励模型（Process Reward Model, PRM），以提高网络代理的性能和可靠性。具体而言，本研究的目的包括：

构建大规模数据集：收集并标注一个包含40K个步骤级别偏好对和清单的大型数据集（WebPRM Collection），以支持PRM的训练和评估。
开发PRM模型：提出一种名为Web-Shepherd的PRM模型，该模型能够在步骤级别评估网络导航轨迹，为代理提供细粒度的反馈信号。
建立评估基准：引入WebRewardBench，作为首个用于评估PRM的元评估基准，以促进PRM研究的标准化和可重复性。
验证模型效果：通过实验验证Web-Shepherd在WebRewardBench和WebArena-lite等基准上的性能，展示其在提高网络代理性能和降低成本方面的优势。

研究方法

数据集构建

为了训练Web-Shepherd模型，研究团队首先构建了WebPRM Collection数据集。该数据集包含来自多个领域和难度级别的40K个步骤级别偏好对和标注清单。具体构建过程如下：

网站选择：从Mind2Web训练数据集中使用的网站中选择候选网站，并手动过滤掉与注释过程不兼容的网站。
注释者招募与培训：招募一组人类注释者，并由项目管理人员进行为期三小时的教育培训，涵盖数据注释界面、高质量任务指令编写指南、良好与不良轨迹示例以及评估代码设计原则。
任务指令创建：要求每位注释者为其分配的每个网站创建20个任务指令，这些任务分布在三个难度级别上：简单、中等和困难。
专家轨迹记录：注释者执行他们创建的任务，并记录成功完成任务所需的完整观察-动作对序列。
评估代码编写：注释者编写能够自动评估轨迹是否达到用户目标的评估代码。
验证与过滤：通过自动和手动验证确保数据质量，过滤掉错误或低质量的数据。

模型训练

Web-Shepherd模型基于生成式奖励建模（Generative Reward Modeling）方法进行训练，具体步骤如下：

模型架构：选择Qwen2.5-3B、Qwen3-8B（文本）和Qwen2.5-VL-3B（多模态）作为基础模型，使用LoRA（Low-Rank Adaptation）技术进行微调。
训练数据：使用WebPRM Collection数据集进行训练，优化语言建模损失（Language Modeling Loss），通过连接反馈（Feedback）和判断（Judgment）形成连贯的响应作为目标。
奖励建模：将奖励建模视为下一标记预测任务，通过自回归方式生成反馈和判断，并使用Softmax函数计算“是”和“进行中”标记的概率来估计软奖励。

评估基准

为了评估PRM的性能，研究团队引入了WebRewardBench基准。该基准通过收集用户指令和相应的专家轨迹，构建偏好对，并要求模型为每个候选动作分配奖励。评估指标包括平均倒数排名（MRR）、步骤准确率（Acc.step）和轨迹准确率（Acc.traj），以衡量模型在步骤级别和轨迹级别上分配奖励的准确性。

研究结果

模型性能

实验结果表明，Web-Shepherd在WebRewardBench基准上显著优于基于MLLM的奖励模型。具体而言，Web-Shepherd（3B）在MRR指标上达到了87.6%，远高于GPT-4o-mini的47.5%和GPT-4o的56.9%。在步骤准确率和轨迹准确率方面，Web-Shepherd也表现出色，显著高于其他基线模型。

成本效益

在WebArena-lite基准上的测试表明，使用GPT-4o-mini作为策略，Web-Shepherd作为验证器时，性能比使用GPT-4o-mini作为验证器提高了10.9分，同时成本降低了10倍。这一结果证明了Web-Shepherd在保持高性能的同时，具有显著的成本效益优势。

案例分析

通过对成功和失败案例的定性分析，研究团队发现Web-Shepherd能够为代理提供有价值的反馈，引导其向成功导航迈进。在成功案例中，奖励分数随时间稳步增加；而在失败案例中，奖励曲线相对平坦。此外，研究还揭示了代理失败的三个主要原因：动作推理错误、观察状态误解和清单生成幻觉。

研究局限

尽管Web-Shepherd在评估网络导航轨迹方面表现出色，但研究仍存在一些局限性：

坐标基础动作的支持：目前的研究尚未扩展到支持坐标基础动作（Coordinate-Based Actions），这类动作允许代理通过直接输入坐标与数字环境交互，而无需额外的后端程序转换动作。这一方向超出了当前工作的主要范围，因此留待未来研究探索。
强化学习中的应用：将Web-Shepherd作为强化学习中的奖励信号是一个有趣的研究方向，但这需要大量的计算资源，因此留待未来工作探索。研究团队计划调查PRM的奖励信号是否能提高学习效率以及在现有基准上的最终性能。
基础模型的选择：虽然当前实现的Web-Shepherd使用了相对轻量级的基础模型（3B-8B），但该方法与模型无关，可以扩展到更大规模。原则上，Web-Shepherd可以扩展到更强大的基础模型（32B-72B），这可能会进一步提高复杂网络环境中的性能。研究团队将这一扩展留待未来在资源丰富的环境中进行探索。
多模态指令：尽管现有网络代理基准中的大多数指令是纯文本的，但某些任务（如VisualWebArena中的任务）结合了文本和图像模态。将Web-Shepherd扩展到处理多模态指令是一个有前景的研究方向，因为这将使代理能够在更复杂和现实的网络环境中操作，这些环境除了文本理解外还需要视觉理解。

未来研究方向

基于当前研究的成果和局限，未来的研究可以围绕以下几个方面展开：

强化学习集成：探索将Web-Shepherd作为强化学习中的奖励信号，以调查其是否能提高学习效率和最终性能。这需要大量的计算资源，但有望为网络代理的训练提供更有效的反馈机制。
更大规模模型的应用：当前实现的Web-Shepherd使用了相对轻量级的基础模型，未来可以探索将其扩展到更大规模的基础模型上，如32B-72B的模型，以进一步提高在复杂网络环境中的性能。这将需要更多的计算资源和更高效的训练方法。
多模态指令处理：随着网络任务的复杂性增加，多模态指令处理将变得越来越重要。未来的研究可以探索如何将Web-Shepherd扩展到处理包含文本和图像的多模态指令，以支持更复杂和现实的网络导航任务。
坐标基础动作的支持：坐标基础动作在网络导航中具有重要意义，尤其是在需要精确操作的任务中。未来的研究可以致力于将Web-Shepherd扩展到支持坐标基础动作，以提高其在复杂网络环境中的适应性和性能。
安全性和鲁棒性：随着网络代理在现实世界中的应用越来越广泛，安全性和鲁棒性成为不可忽视的问题。未来的研究可以探索如何在Web-Shepherd中融入更多的安全机制，如严格的执行约束、权限控制、人类监督和模型输出的仔细审计，以确保其在部署场景中的安全性和鲁棒性。

综上所述，本研究通过提出Web-Shepherd模型和相关数据集、评估基准，为网络导航领域的过程奖励建模提供了新的思路和方法。未来的研究可以围绕强化学习集成、更大规模模型的应用、多模态指令处理、坐标基础动作的支持以及安全性和鲁棒性等方面展开，以进一步推动网络导航领域的发展和应用。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大