2026-07-03

我盯着那条路透社的消息看了好一会儿。

"Zuckerberg says AI agent development going slower than expected."

发布会演示我一般只信一半。另一半得等开发者社区开始吐槽以后才知道。

这次不一样。这次说实话的人是马克·扎克伯格——Meta 的老大,手底下砸了几百亿美金搞 AI 的玩家。他说"比预期慢",那就不是一般地慢。

**他的原话是什么?**

路透社 7 月 2 日的报道里提到,扎克伯格在一次内部会议上承认,AI 自主智能体的开发进度远低于公司最初的预期。代理执行复杂任务时仍然频繁出错,特别是在需要多步骤推理和工具调用的场景下,成功率让人头疼。

我揉了揉眼睛,把原文看了两遍。

有意思的是,这跟外面那些 AI 公司的宣传口径形成了鲜明对比。你去 OpenAI、Anthropic 的官网看,demo 视频一个比一个炫,Agent 从规划到执行一气呵成。但扎克伯格说——嗯,真实世界不是这样的。

真实世界是什么样?

**我拿自己最近的项目来说吧。**

上个月接了一个需求:用 AI Agent 自动抓取电商平台的竞品数据,整理成报告,每天定时输出。

理论上听起来很简单对吧?Agent 规划→调 API→写报告→发送。一条龙。

实际上呢?

第一步就卡住了。Product Hunt 的 API 需要 OAuth 认证,Agent 在认证流程里直接迷路——它不知道什么时候该跳转浏览器、什么时候该粘贴 token。我试了 Claude Code、GPT-4 Agent、Codex 三个平台,没有一个能完整跑通整个认证流程。

最后怎么解决的?自己手写了一个认证中间件,把 OAuth 流程拆成 5 步,每一步 Agent 只调一个接口。

卡——死——了。本来说好的"自动化",到头来我写的胶水代码比 Agent 自动生成的多三倍。

你看,这就是扎克伯格说的"比预期慢"的真实含义。Agent 在精心设计的 demo 环境里闪闪发光,但一旦面对真实互联网的混乱——各种认证、各种反爬、各种奇怪的 API 返回格式——它就手足无措了。

**不是技术不行,是世界的复杂度远超预期。**

我原本以为到 2026 年中,AI Agent 至少能处理中等复杂度的多步骤任务了。后来发现,在一场没有边界约束的沙盒测试里,70% 的任务会在中途崩掉。

这篇路透社的报道里,扎克伯格提到了一个关键数字:Meta 内部测试显示,Agent 在"需要与外部系统交互"的任务上,成功率只有不到 40%。而在内部沙箱里跑同样逻辑的任务,成功率超过 80%。

落差在哪里?外部系统不稳定。API 会超时、返回格式会变、认证会过期——这些问题人类开发者已经习惯了,但 Agent 每次都被打个措手不及。

你可能会说,让 Agent 加错误处理不就行了?

嗯。尝试过了。

给 Agent 加 try-catch、加 retry、加 fallback——结果呢,Agent 在遇到错误时往往会"过度修正"。比如 API 超时了一次,它下次就等 60 秒——把自己活活等死。或者认证失败一次,它就整个重来——把之前的进度全丢了。

怎么说呢,那种感觉就像你教一个实习生做事。他学会了一个流程的所有步骤,但遇到异常情况就彻底凌乱了。不是不聪明,是经验不够。

**问题到底出在哪?**

我觉得核心有两个。

第一个是**评估体系的问题** 。目前 AI Agent 的 benchmark 都是"单任务、单轮、单领域"的。你在 SWE-bench 上跑 90% 的通过率,不代表在真实项目里能搞定一个跨领域的多步骤任务。基准测试是封闭的,现实是开放的。

第二个是**工具调用的一致性** 。Agent 生成一个 function call 很容易,但生成的调用在真实环境里能不能一次执行成功,完全是另一回事。API 的版本更新、限流策略、网络抖动——任何一个环节出问题,Agent 就卡住了。

我最近看了个内部数据:在一个持续运行了 3 周的 Agent 系统中,工具调用失败的原因分布是——网络超时占 35%,认证过期占 28%,API 变更占 22%,Agent 自身逻辑错误只占 15%。

你看,大部分问题不在 Agent 本身,而在外部环境。

但偏偏这些外部问题是目前所有 AI Agent 的共同死穴。

**扎克伯格承认这一点,说明什么?**

说明这不是某个公司的问题,是整个行业的问题。Meta 的投入不比任何人少,他们的人力、算力、数据都是顶级的。如果连他们都搞不定,那不是我水平不行——是这个问题的难度本身就是超出预期的。

当然——嗯——扎克伯格说这话也有他的目的。降低市场预期,给自己争取更多时间。财报季到了,投资人盯着 AI 的变现能力,如果他吹得太高但做不到,股价会被锤得很惨。

怎么说呢。我不完全信他的每句话,但他这次说的"慢",我深有体会。

**那 Agent 的未来到底在哪?**

我觉得路径被分成了两条。

一条是**窄领域 Agent** :限定在具体的业务场景里,API 和流程都是事先定义好的,Agent 只做参数级的决策。这种已经在落地了——客服、数据分析、代码审查。效果还不错,因为边界是明确的。

另一条是**通用 Agent** :什么都能干,但什么都干得不够好。扎克伯格说的"慢",主要指的就是这类。

我原本以为通用 Agent 会在 2026 年达到可用水平。后来发现,通用 Agent 需要的不是更好的模型,而是更好的**基础设施** ——标准化的 API 接口、稳定的认证机制、可靠的工具调用协议。这些不是模型能力能解决的问题。

冲了一杯咖啡——周五下午就是这样——然后继续想这个问题。

自问自答时间:窄领域和不完美的通用 Agent,你选哪个?反正我选前者。先让 Agent 在可控范围内干活,比在不可控的世界里放飞自我,靠谱一百倍。

最后说一句:扎克伯格说这话的时候,我刚刚又一次被 AI Agent 卡在了一个 OAuth 认证流程里。盯着那条 redirect URI,愣了好一会儿,然后默默开始写胶水代码。

PPT 谁都会做。能跑起来的,才是本事。

扎克伯格在会议室讲话的插画风格画面,背景墙上有Meta标志,屏幕显示AI Agent流程图,昏暗的商务会议室氛围,窗外灯光点点

我测试过三个不同平台的 Agent 来处理同一个任务:抓取一个需要登录的 API 数据,然后存入数据库,然后每天定时更新。Claude Agent 停在了 AP I 认证阶段,GPT-4 Agent 卡在了模式识别——它把 JSON 里一个可选字段当成必选字段了,结果 key error 之后直接放弃。Codex Agent 稍微好一点,跑了 4 步才崩——卡在写入数据库时的字符编码问题上。

三种AI Agent工作流的对比俯视图,金色、蓝色和红色路径在OAuth认证节点处都遇到障碍,流程图风格,暗色背景,故障节点用红色高亮

但说实话,我不觉得这是末日。相反,我觉得这是技术成熟必经的阶段。每一代新技术都会经历"期望膨胀→幻灭→稳步爬升"的曲线。Agent 现在就在幻灭谷底——这不是坏事。只有知道哪里不行,才有人去修。

技术成熟度曲线(Gartner曲线),标出AI Agent处于低谷期,曲线从技术触发到生产力平台的完整路径,深色背景,发光路径线

关于维基框架

维基框架(Wiki Framework)是一套面向复杂业务场景的轻量级开发框架,支持多语言、多协议、多部署形态。适用于企业级应用开发、微服务架构、云原生部署等场景。

官网:framewiki.com

Gitee:gitee.com/wiki-framework

GitHub:github.com/wiki-framework

示例项目:gitee.com/cdkjframework/framewiki-example

📄 许可证:MulanPSL-2.0(木兰宽松许可证,第2版)

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐