这篇文章源于我近半年关于Agent(去除敏感信息)的生产实践,也源于近一年和各个团队关于Agent的一些交流,包括我对类Manus项目的一些困惑。

就当前来说,存在两个截然相反的声音:Agent就是未来,其他技术都过时了 VS Agent(Manus)没有用,不解决实际问题

以下几乎是原话摘录:

Agent支持派

AI开发变化太快了,上半年的经验,在下半年已经不适用了

去年Dify、n8n牛逼哄哄的,今年agent模型流行后,新开发的项目都是agent自主规划了,已经没人考虑Dify、n8n这种落后的思路了

事实就是新的Agent比旧的工作流效果好太多了

Agent反对派

Manus自始至今,从产品角度而言,思路是完全失败的。

它没有专业数据、没有专属工具链、没有行业认证、没有与业务深度绑定的集成,也没有与高价值业务场景的绑定,也就是任何人都能做。所以,它更偏向工程能力的延伸,而不是在构建场景护城河

用户会发现,当他们遇到真正复杂的问题时,这个通用 Agent 还是帮不上忙,最终不得不转向专业的垂直产品或人工服务,导致用户留存率不高

总结下来就一句话:有人觉得Agent已经无所不能,代表当前先进生产力了、也有人认为Agent撒也不是,谁都能做,毫无壁垒,费Token还不解决实际问题

怎么说呢,过于悲观和过于乐观的认知都是错误的,他直接导致的结果就是各个公司乱投入或者不投入;

而我这边近3年全部在做AI相关工作,前前后后接触了40多家公司,做了25个AI项目(花钱多的过2亿、花钱少的不到10万),在Agent这块有些个人心得,我们今天就来系统性的探讨下:

Agent这东西到底先进到哪,以及他到底能不能解决实际问题

一、为什么25年是Agent元年

首先,Agent的核心是外部工具调用,而非严格意义来说,Function Calling 是Agent架构的基石,因为有了他才有正经的Tools调用。

虽然在官方提出这Function Calling之前,也能够自己训练模型或者让模型输出类似的格式,去模拟Function Calling,但这毕竟不是正道,因为换个模型也许就不好用了。

当前最经典的Agent框架是ReAct,他大约是在2022年提出,论文《ReAct: Synergizing Reasoning and Acting in Language Models》,其中就有伪FC的实现。

最后到23年6月,OpenAI的更新,正式提出了Function Calling,将他作为ChatGPT 产品的正式能力,后续逐渐成为事实上的标准,各个基座模型都有对应实现,有了这个基础后,Agent的出现就变得更加顺滑了。

国内概念的火热从年初的Manus开始,但如果真要追溯早期、又出圈的Agent的话可以是2023年3月的开源项目Auto-GPT,只不过就算今年的Manus在早期因为基座能力不足都表现不佳,遑论更早期的Auto-GPT了呢?

从Manus发布后,2025 AI应用元年逐渐转移成2025 AI Agent元年,模型也取得了长足的发展,包括整体的推理能力、上下文长度得到了极大的加强,而且我相信各个基座模型一定在工具调用这块做了大量微调训练,其直接的结果是下半年的工具调用能力有明显的加强

虽然模型的稳定性调用能力有不小的加强,但在工具多了后依旧会有找不到、乱调用的问题。于是Claude开始收集了大量Tools调优经验,在25年10月正式提出了Skills技术,可以认为他是在对整体Function Calling进行补足(当然Skills除了提升工具识别能力之外,还做了很多其他工作)。

现阶段使用Skills + Function Calling + 上下文工程,已经可以将准确率做得很不错了(比如我们就能折腾到90%+,这在之前是很难的)。

以上,是我从技术层面看到的,近三年Agent发展的情况,也就是说:在今年之前想要做出个好的Agent几乎不可能;在今年下半年开始,整体难度会小非常多

最后这里的结论就是:之前对于Agent的很多质疑乃至产品体验差的问题,在2026年应该会得到很大的缓解

所以,要说Agent直接依赖于模型能力的变迁,这句话还真的没问题,你怎么优化都可能比不上模型一次能力升级。

接下来我们再来说其核心编排层,这个可以解释为什么Agent会越来越强:

二、规划框架:思考-行动-观察

很多同学知道Agent的工作模式一直在模仿人,但多数同学对ReAct这个词并不熟,也不能理解思考-行动-观察这套循环到底有什么作用;

毕竟多聊一轮响应速度就会慢很多还会多花不少冤枉钱(耗Token),关于为什么要有这么多循环,我认为主要是模型能力不足所致,需要多轮调优,才能最终做出合理的规划

他就像一个需要调教的学生,下面这个案例可以很好说明循环调教对于模型做出合理规划的意义:

六顶思考帽是一种经典的“平行思维”框架,旨在将混乱的思考过程结构化。其核心是赋予思考者六种不同的角色“帽子”:

  1. 白帽:客观中立,只关注事实与数据。
  2. 红帽:感性直觉,表达情绪与预感。
  3. 黑帽:谨慎批判,专注风险与缺陷。
  4. 黄帽:积极乐观,看到价值与机会。
  5. 绿帽:创新创造,探索新想法与可能性。
  6. 蓝帽:统筹控制,管理思考流程与总结。

其威力在于强制切换视角,避免人们被单一立场(比如一味批判或盲目乐观)所困,从而实现对问题的全方位审视。举个具体的案例,要不要在公司上马一个Agent项目,跑一轮六顶思考帽,大致会变成这样一套 ReAct 循环:

  1. 白帽:我到底知道哪些事实?现在公司有什么基础?预算多少?有哪些现成数据和系统?
  2. 黑帽:最坏的情况是什么?可能踩哪些坑?哪些部门一定会强烈反对?
  3. 黄帽:如果成功了,最大的收益是什么?对业务、对团队能力有哪些放大?
  4. 绿帽:在现有资源约束下,有没有一些性价比更高的落地路线?比如先从一个小流程改造,而不是一上来做全栈Agent平台。
  5. 蓝帽:把前面所有视角收束成一个可执行的行动计划,先做什么,怎么拆阶段,怎么验证,失败后怎么止损,蓝猫开始收尾做输出了

这一整套六顶思考帽跑下来,模型在不断地对自己刚刚的想法进行追问、纠偏和补充,这就是典型的模型自问自答,这有三个好处:

第一,强行补全视角;第二,把想清楚从一次性梭哈,变成逐步逼近,最终,让规划从黑盒直觉,变成可复盘的过程

六顶思考帽这种玩法,就是设计了一套学生自己跟自己对话的训练框架,以达到对模型调教的目的,从 Agent 的角度看,这就是把思考-行动-观察这条 ReAct 循环,进一步做了角色化化的实现。

这一套的结果是:模型的规划能力不是凭空长出来的,而是在一次次自问自答中长出来的。

并且随着模型能力的进一步加强,其生成的解法会更加完善,所以从框架层面来说,Agent架构确实会越来越好,只不过费Token暂时没法避免。

在了解Agent进化史后,我们再看看最经典的旅游案例:

三、Tools:排列组合

首先,大家要理解模型本身是没有思考能力的,他的每次回答都是一次千锤百炼的文本统计模仿,比如DeepSeek是没有办法识别Claude Code 10月发布的Skills技术的:

这东西在他的基础数据里没有,对于模型没有的东西,他一定会胡编乱造,这个可以从论文《OpenAI:Why Language Models Hallucinate》看出来。

为了解决这个问题,模型就一定要引入外部工具调用的能力,Function Calling、MCP等出现后,模型就开始从问答机器人逐渐往解决具体问题的Agent做进化了。

而这也是很多人认为Agent是先进技术、先进生产力的原因,严格来说,他对工具利用的效率会更高:

在之前,我们解决问题的方式是Workflow + AI,模型会在流程中某个节点上贡献自己的一己之力。Workflow虽然稳定、效率也高:

但Workflow不得不面对一个问题,总会有20%的场景是他无法满足的,而这种长尾问题很严重:

也许10个Workflow可以解决80%的问题,但如果想要把80%提升到85%可能需要100个Workflow,提升到90%可能需要1000个…

于是这里核心矛盾也就出现了:Workflow无法满足用户无穷的需求,并且约到后面成本越高,那么该怎么办呢?

答案是:用有限的工具去约束用户无穷的意图

能这样做的原因是模型基本能力已经很强了,**ReAct(思考-行动-观察)**架构能很好的(多数时候能)实现规划工作;

另外由于互联网这些年的发展,很多工具已经很成熟了:

  1. 常用的如搜索引擎、地图服务、文件处理等都非常标准;
  2. 不太标准的如订票、支付、抖音APP操作等非要做也可以用RPA技术过渡,垂直平台(如携程)早晚会开放接口;
  3. 更进一步当前Computer-Use、Browser-Use乃至手机操作等更平台型的技术都在使劲突破;
  4. 当然最厉害的大杀器还是AI Coding,理论上这家伙能够把所有的工具生成出来(实际肯定做不到);

所以,模型规划 + Tools排列组合理论上是可以解决20%的问题的,就算不能解决但他也会大大降低将80%变为90%的成本。

这里举个我自己的例子:

四、Planning + Tools 收束意图

去年以来,事情就变得特别多、特别杂,我需要找课题、写文章、开发课件、做拜访、出差咨询、各种售前

最后还需要稍微花点心思管理团队,但事情多了的结果就一个:很多事情会被漏掉

一开始我用的 Todolist + 提醒:

  1. 把要做的事记下来;
  2. 设个时间提醒自己别忘;
  3. 做完就勾掉;

只不过后面问题变多了,简单的模式就不好用了:

  1. 任务来源越来越多:微信聊天、公众号文章、抖音/视频号、小程序消息;
  2. 每条 todo 背后的上下文不一样:有的是选题,有的是客户,有的是灵感片段;
  3. 还要和团队共享、分配、跟进;

这时候Workflow排上了用场:

  1. 如果是某个微信群,就抄到表 A;
  2. 如果包含选题两个字,就打某个标签;
  3. 如果是抖音链接,就丢给某个脚本处理;

这就跟上面说的类似了,规则不够用:一旦入口多一点、场景多一点,Workflow 就会爆炸,刚才说的“10 个流程覆盖 80%,想做到 90% 要 1000 个流程”的问题就出现了。

这里就轮到 Agent 上场了。对我来说,核心不是再造一个巨复杂的系统,而是:在一个相对稳定的 Todolist / 项目看板之上,加一个项目小助理Agent,让它帮我把事情从“世界”搬运到“列表”。

这个小助理手里只有几类 Tools:

  1. 文本提取类:从微信消息、抖音、网页链接中抽取正文;
  2. 内容加工类:摘要、改写、提炼关键句;
  3. 结构化写入类:写入多维表格 / 看板(字段包括来源、类型、优先级、截止时间等);
  4. 通知提醒类:给我或同事发一条“你该处理了”的消息;

从 Tools 的视角看,这套能力很“有限”,就是几种固定的操作;但从“意图”的视角看,它可以覆盖非常多种变体:

  1. 把这篇公众号发给你,帮我记成一个选题 todo;
  2. 这个抖音视频不错,帮我提炼成一条学习任务;
  3. 客户在微信里说的需求,帮我拆成三个可执行任务分给不同同事;
  4. 这篇长论文只要结论,帮我变成一个写作素材条目;

相信从这里大家也看出来Agent的核心价值了:他会大大增加我Workflow的泛化能力!模型用 ReAct 式的思考-行动-观察循环,来决定怎么排列组合这些 Tools:

对同一个输入,它会先判断这是“选题”“学习任务”还是“客户需求”,再按套路调用:

  1. 提取文本 → 生成摘要 → 识别类型 → 写入对应项目表 → 视情况创建提醒;
  2. 如果发现字段不全,就再问一句补信息,继续调用;

这里结果是,我不需要为每种场景写死一个 Workflow,只要提供一组通用的能力工具,再把“该怎么组合这些工具”交给模型的规划能力,就能在有限规则下,去承接用户几乎无穷的意图变化。

这就是前面那句话的落地版:有限的 Tools + 模型的规划能力,可以在成本可控的前提下,大幅“吃掉”长尾需求。

从这个角度来说,Agent不能说是先进的技术,但我也没想到其他的解法,这本来就是一种:时间、空间(成本)、稳定性 换取 兜底的设计,如果设计如此的话,就不能去挑Agent的那些毛病。

五、结语

当然,一套优秀的Agent必定离不开记忆模块,只不过大家要明白:记忆体系虽然很复杂,但他在Agent架构中的最最核心的意义是让模型更清晰的理解用户意图,以做更合理的规划、调用更合适的工具组合

所以记忆问题我们在这里就不做展开,因为其实记忆系统衍生出来的上下文工程才是整个工程架构里面最难、最烦、成本最高的部分,这里面涉及了各种结构设计、状态更新、偏好记录、只是增强等等,这里根本没办法放开了聊。

最后我们收一收,关于:**Agent 是未来的先进生产力,还是一个谁都能做的伪概念?**我相信大家现在有了一个清晰的判断了。

Agent 不仅是一项先进的技术架构,更是当前 AI 应用演进中极具价值的范式突破

这东西并不是一下子蹦出来的,而是建立在坚实的演进逻辑之上:

从早期的伪工具调用,到 2023 年 OpenAI 推出 Function Calling 成为业界标准,再到 Claude Skills 等工程优化。

模型在工具调用、规划与执行上的能力已经实现了质的飞跃。这是 2025 年 Agent 从“玩具”走向“工具”的核心原因。

从工程实践来看,Agent 也不是玄学,而是一种清醒的取舍:用更多 Token、更多循环、更多系统复杂度,去换更高的覆盖率和更强的泛化能力。

本质上,是用「时间 + 成本 + 稳定性的一点点牺牲」换「业务长尾的极大收缩」。如果你认同真实世界业务必然是长尾、必然充满变化,那在当前技术条件下,很难找到比 Agent 更合理的工程解法。

再看 Manus 这条线,也许现实会更有说服力。一个被无数人嘲讽为套壳、一个周末就能抄出来的产品,几个季度过去了既没有被替代,反而在 RLI 等 Benchmark 上长期排在第一,这说明什么?

说明它踩中的不是噱头,而是正确的结构性选择:Less structure, more intelligence。

展望未来,正如Manus张涛所言:Agent 将向着更通用的工具平台、更持久的伴随式服务、更主动的意图理解演进。

它或许尚不完美,在成本控制、复杂场景稳定性方面仍需探索,但其路径已经清晰:作为扩展人类智能与效率的新一代中介,Agent 正在将 AI 从“对话的奇迹”转变为“行动的伙伴”。

因此,对于每一位身处这个时代的构建者与使用者而言,理解并善用 Agent,已非选择题,而是一道关乎效率与竞争力的必答题。

最后再引用张涛在清华那场分享里说:

现在已经是 2025 年最后一个月了,如果你还没真正用过 Agent,至少要在今年学会和它共处,就像几十年前学会用电脑一样。

几年之后,你大概率不会记得哪一篇 Agent 概念文章,但你会很清楚:自己是从什么时候开始,把 Agent 当成日常工作的一部分的。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐