AI Agent开发比预期慢：扎克伯格终于说了句大实话

JPST228

45人浏览 · 2026-07-04 08:24:08

JPST228 · 2026-07-04 08:24:08 发布

2026-07-03

我盯着那条路透社的消息看了好一会儿。

"Zuckerberg says AI agent development going slower than expected."

发布会演示我一般只信一半。另一半得等开发者社区开始吐槽以后才知道。

这次不一样。这次说实话的人是马克·扎克伯格——Meta 的老大，手底下砸了几百亿美金搞 AI 的玩家。他说"比预期慢"，那就不是一般地慢。

**他的原话是什么？**

路透社 7 月 2 日的报道里提到，扎克伯格在一次内部会议上承认，AI 自主智能体的开发进度远低于公司最初的预期。代理执行复杂任务时仍然频繁出错，特别是在需要多步骤推理和工具调用的场景下，成功率让人头疼。

我揉了揉眼睛，把原文看了两遍。

有意思的是，这跟外面那些 AI 公司的宣传口径形成了鲜明对比。你去 OpenAI、Anthropic 的官网看，demo 视频一个比一个炫，Agent 从规划到执行一气呵成。但扎克伯格说——嗯，真实世界不是这样的。

真实世界是什么样？

**我拿自己最近的项目来说吧。**

上个月接了一个需求：用 AI Agent 自动抓取电商平台的竞品数据，整理成报告，每天定时输出。

理论上听起来很简单对吧？Agent 规划→调 API→写报告→发送。一条龙。

实际上呢？

第一步就卡住了。Product Hunt 的 API 需要 OAuth 认证，Agent 在认证流程里直接迷路——它不知道什么时候该跳转浏览器、什么时候该粘贴 token。我试了 Claude Code、GPT-4 Agent、Codex 三个平台，没有一个能完整跑通整个认证流程。

最后怎么解决的？自己手写了一个认证中间件，把 OAuth 流程拆成 5 步，每一步 Agent 只调一个接口。

卡——死——了。本来说好的"自动化"，到头来我写的胶水代码比 Agent 自动生成的多三倍。

你看，这就是扎克伯格说的"比预期慢"的真实含义。Agent 在精心设计的 demo 环境里闪闪发光，但一旦面对真实互联网的混乱——各种认证、各种反爬、各种奇怪的 API 返回格式——它就手足无措了。

**不是技术不行，是世界的复杂度远超预期。**

我原本以为到 2026 年中，AI Agent 至少能处理中等复杂度的多步骤任务了。后来发现，在一场没有边界约束的沙盒测试里，70% 的任务会在中途崩掉。

这篇路透社的报道里，扎克伯格提到了一个关键数字：Meta 内部测试显示，Agent 在"需要与外部系统交互"的任务上，成功率只有不到 40%。而在内部沙箱里跑同样逻辑的任务，成功率超过 80%。

落差在哪里？外部系统不稳定。API 会超时、返回格式会变、认证会过期——这些问题人类开发者已经习惯了，但 Agent 每次都被打个措手不及。

你可能会说，让 Agent 加错误处理不就行了？

嗯。尝试过了。

给 Agent 加 try-catch、加 retry、加 fallback——结果呢，Agent 在遇到错误时往往会"过度修正"。比如 API 超时了一次，它下次就等 60 秒——把自己活活等死。或者认证失败一次，它就整个重来——把之前的进度全丢了。

怎么说呢，那种感觉就像你教一个实习生做事。他学会了一个流程的所有步骤，但遇到异常情况就彻底凌乱了。不是不聪明，是经验不够。

**问题到底出在哪？**

我觉得核心有两个。

第一个是**评估体系的问题** 。目前 AI Agent 的 benchmark 都是"单任务、单轮、单领域"的。你在 SWE-bench 上跑 90% 的通过率，不代表在真实项目里能搞定一个跨领域的多步骤任务。基准测试是封闭的，现实是开放的。

第二个是**工具调用的一致性** 。Agent 生成一个 function call 很容易，但生成的调用在真实环境里能不能一次执行成功，完全是另一回事。API 的版本更新、限流策略、网络抖动——任何一个环节出问题，Agent 就卡住了。

我最近看了个内部数据：在一个持续运行了 3 周的 Agent 系统中，工具调用失败的原因分布是——网络超时占 35%，认证过期占 28%，API 变更占 22%，Agent 自身逻辑错误只占 15%。

你看，大部分问题不在 Agent 本身，而在外部环境。

但偏偏这些外部问题是目前所有 AI Agent 的共同死穴。

**扎克伯格承认这一点，说明什么？**

说明这不是某个公司的问题，是整个行业的问题。Meta 的投入不比任何人少，他们的人力、算力、数据都是顶级的。如果连他们都搞不定，那不是我水平不行——是这个问题的难度本身就是超出预期的。

当然——嗯——扎克伯格说这话也有他的目的。降低市场预期，给自己争取更多时间。财报季到了，投资人盯着 AI 的变现能力，如果他吹得太高但做不到，股价会被锤得很惨。

怎么说呢。我不完全信他的每句话，但他这次说的"慢"，我深有体会。

**那 Agent 的未来到底在哪？**

我觉得路径被分成了两条。

一条是**窄领域 Agent** ：限定在具体的业务场景里，API 和流程都是事先定义好的，Agent 只做参数级的决策。这种已经在落地了——客服、数据分析、代码审查。效果还不错，因为边界是明确的。

另一条是**通用 Agent** ：什么都能干，但什么都干得不够好。扎克伯格说的"慢"，主要指的就是这类。

我原本以为通用 Agent 会在 2026 年达到可用水平。后来发现，通用 Agent 需要的不是更好的模型，而是更好的**基础设施** ——标准化的 API 接口、稳定的认证机制、可靠的工具调用协议。这些不是模型能力能解决的问题。

冲了一杯咖啡——周五下午就是这样——然后继续想这个问题。

自问自答时间：窄领域和不完美的通用 Agent，你选哪个？反正我选前者。先让 Agent 在可控范围内干活，比在不可控的世界里放飞自我，靠谱一百倍。

最后说一句：扎克伯格说这话的时候，我刚刚又一次被 AI Agent 卡在了一个 OAuth 认证流程里。盯着那条 redirect URI，愣了好一会儿，然后默默开始写胶水代码。

PPT 谁都会做。能跑起来的，才是本事。

扎克伯格在会议室讲话的插画风格画面，背景墙上有Meta标志，屏幕显示AI Agent流程图，昏暗的商务会议室氛围，窗外灯光点点

我测试过三个不同平台的 Agent 来处理同一个任务：抓取一个需要登录的 API 数据，然后存入数据库，然后每天定时更新。Claude Agent 停在了 AP I 认证阶段，GPT-4 Agent 卡在了模式识别——它把 JSON 里一个可选字段当成必选字段了，结果 key error 之后直接放弃。Codex Agent 稍微好一点，跑了 4 步才崩——卡在写入数据库时的字符编码问题上。

三种AI Agent工作流的对比俯视图，金色、蓝色和红色路径在OAuth认证节点处都遇到障碍，流程图风格，暗色背景，故障节点用红色高亮