大模型论文 | Meta开源ARE智能环境与Gaia2基准测试，构建大规模agent测试环境

论文介绍了一个模块化模拟器(ARE)*和一个*移动端风格基准(Gaia2)，强调异步事件、写入操作验证以及在嘈杂、动态环境中的多agent协调。Gaia2：基准测试 --在类似智能手机的世界中有1,120个场景，包含12个应用程序（聊天、日历、购物、邮件等）；六种主要挑战类型：搜索、执行、适应性、时间、模糊性和agent间协作（示例见第12-14页，GUI截图中显示了事件图）；测试显示：无单一模型

Android老皮

374人浏览 · 2025-09-23 14:56:39

Android老皮 · 2025-09-23 14:56:39 发布

Meta开源ARE智能环境与Gaia2基准测试平台，用于评估大模型在动态环境中的表现。ARE模拟器强调异步事件和时间流动，Gaia2包含1120个场景和6种挑战类型。测试显示：无单一模型主导，强推理模型在时间关键任务上表现不佳，多agent协作可帮助较弱模型。这对大模型开发者和研究者具有重要参考价值。

Meta 论文(ARE: scaling up agent environments and evaluations)开源了Meta agent研究环境(ARE)。ARE + Gaia2 — 一个用于在现实的、时间驱动环境中构建和压力测试agent系统的研究平台和基准。论文介绍了一个模块化模拟器(ARE)*和一个*移动端风格基准(Gaia2)，强调异步事件、写入操作验证以及在嘈杂、动态环境中的多agent协调。

ARE：模拟器 --所有内容都建模为应用程序、事件、通知和场景；时间持续流动，即使在agent思考时也是如此，因此慢速模型会错过截止时间；agent使用工具、接收异步通知，并在有向无环图定义的规则下运行

Gaia2：基准测试 --在类似智能手机的世界中有1,120个场景，包含12个应用程序（聊天、日历、购物、邮件等）；六种主要挑战类型：搜索、执行、适应性、时间、模糊性和agent间协作（示例见第12-14页，GUI截图中显示了事件图）；场景可验证：通过硬检查（ID、顺序）和软LLM判断（内容）将预言机写入操作与agent操作进行比较

结果：没有单一模型占主导地位：GPT-5"高"推理在困难任务上领先，但在时间关键任务上崩溃。Claude-4 Sonnet在速度与准确性之间取得平衡，但成本更高。开源模型（如Kimi-K2）在适应性方面显示出潜力。扩展曲线趋于平缓，显示在相同框架上投入更多计算资源的收益递减。

强推理模型经常在及时性方面失败（"逆向扩展"效应）。即时模式实验证实，当截止时间很重要时，长时间推理会有害。多agent设置帮助较弱的模型更好地协调，但对最强系统产生混合结果。

的模型更好地协调，但对最强系统产生混合结果。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla