Meta开源ARE智能环境与Gaia2基准测试平台,用于评估大模型在动态环境中的表现。ARE模拟器强调异步事件和时间流动,Gaia2包含1120个场景和6种挑战类型。测试显示:无单一模型主导,强推理模型在时间关键任务上表现不佳,多agent协作可帮助较弱模型。这对大模型开发者和研究者具有重要参考价值。

Meta 论文(ARE: scaling up agent environments and evaluations)开源了Meta agent研究环境(ARE)。ARE + Gaia2 — 一个用于在现实的、时间驱动环境中构建和压力测试agent系统的研究平台和基准。论文介绍了一个模块化模拟器(ARE)*和一个*移动端风格基准(Gaia2),强调异步事件、写入操作验证以及在嘈杂、动态环境中的多agent协调。

ARE:模拟器 --所有内容都建模为应用程序、事件、通知和场景 ;时间持续流动,即使在agent思考时也是如此,因此慢速模型会错过截止时间 ;agent使用工具、接收异步通知,并在有向无环图定义的规则下运行

Gaia2:基准测试 --在类似智能手机的世界中有1,120个场景,包含12个应用程序(聊天、日历、购物、邮件等) ;六种主要挑战类型:搜索、执行、适应性、时间、模糊性和agent间协作(示例见第12-14页,GUI截图中显示了事件图) ;场景可验证:通过硬检查(ID、顺序)和软LLM判断(内容)将预言机写入操作与agent操作进行比较

结果: 没有单一模型占主导地位:GPT-5"高"推理在困难任务上领先,但在时间关键任务上崩溃。Claude-4 Sonnet在速度与准确性之间取得平衡,但成本更高。开源模型(如Kimi-K2)在适应性方面显示出潜力。扩展曲线趋于平缓,显示在相同框架上投入更多计算资源的收益递减。

强推理模型经常在及时性方面失败("逆向扩展"效应)。即时模式实验证实,当截止时间很重要时,长时间推理会有害。多agent设置帮助较弱的模型更好地协调,但对最强系统产生混合结果。

的模型更好地协调,但对最强系统产生混合结果。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐