【科普】Agent是指什么?它从哪里来?要到哪里去?
摘要:Agent(智能体)是能感知环境并与之交互的智能实体,其核心特征包括自主性、环境感知和动态交互。大模型时代下,基于LLM的Agent系统通常包含规划、记忆和工具使用三个关键组件。Agent通过结合LLM与环境交互能力,弥补了LLM在实时数据获取、任务拆解和执行等方面的不足。当前典型的Agent应用包括数据洞察分析等场景,通过工具调用和任务规划实现复杂功能。学习大模型技术需掌握系统设计、提示词
一、Agent的概念
虽然大家都在说2025年是Agent的元年,但如此高频的一个词,就跟好多计算机里面的概念一样,也是没有严格定义的。
我将整理一些不同时期的定义,好让大家更好地理解这个概念的内涵。
01.前大模型时代
在大模型兴起之前,在不少地方也有Agent的定义。
Marvin Minsky在《思维的社会》中最早提出:社会个体通过协商求解问题的思想,这些具备社会交互性和智能性的个体即为Agent。
《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach, Stuart Russell & Peter Norvig):Agent是任何能通过传感器感知环境,并通过执行器作用于环境的实体。
《强化学习》(Richard S. Sutton, Andrew G. Barto ):进行学习及实施决策的机器被称为智能体(Agent),智能体之外所有与其相互作用的事物都被称为环境(environment)。
《多智能体系统导论》(An Introduction to MultiAgent Systems,Michael Wooldridge )强调自主性、环境感知和动态交互三大特性。
这些定义虽然各部相同,但大致都强调了Agent的几个特点:与环境交互、智能、感知环境、执行
02.大模型时代
现在大家引用比较多的关于Agent的定义,是前OpenAI安全副总裁Lilian Weng在其博客LLM Powered Autonomous Agents中给出的,如下图所示,虽然也没有定义什么是Agent,但给出了Agent的三个关键组件。这个定义,虽然更多的是从实现的角度考虑的,但如果你看Agent相关的研究会发现,他们基本上都是在围绕这三个点在开展。

基于LLM的Agent系统,LLM在其中扮演大脑的角色。在考虑Agent实现时,通常参照上图,认为Agent有如下三个关键组件:
- 规划
- 记忆
- 工具使用
而另一个公认的定义,来自复旦大学的综述论文The Rise and Potential of Large Language Model Based Agents: A Survey:基于大型语言模型(LLM)的 AI 智能体(LLM-based AI Agent)是指利用大型语言模型作为核心组件,具备感知环境、自主决策和执行任务能力的人工智能系统。这些智能体通过结合规划、记忆和工具使用等模块,使其能够在动态环境中完成复杂任务。

二、Agent和大模型的关系是什么
看了上面这么多的定义,可能还是无法理解什么是大模型,什么是Agent,他们之间的关系,可以认为是下面这样的:
AI Agent = LLM + 角色定义 + 规划 + 工具使用 + 记忆
其中的规划、工具使用、记忆在上文已经提到了,而角色定义,更多的是在多智能体系统下才有的。
那么问题来了,像常用的ChatGPT、豆包、元宝这些软件,究竟是什么?
虽然上面AI Agent和LLM的关系里面,右边有好多项,但按照当前的业界共识,具备工具使用或记忆,或者多个不同角色的LLM之间进行交互,就称得上是Agent了,并不是需要都具备。从这个角度来讲,只要在ChatGPT、豆包这些App中打开了联网搜索,就称得上是Agent了(虽然大家一般不这样说),因为联网搜索相当于是Agent借助LLM在使用工具,而关闭联网搜索时,如果这些App本身不结合用户偏好(ChatGPT比较新的版本中会结合用户偏好回答问题),而是纯基于模型回答的话,则不能称之为Agent了。
三、为什么需要Agent
在理清了LLM和Agent的关系之后,我们再来看一下在LLM本身已经具有超越人类的答题、写作能力后,为社么还需要Agent。
大致有如下4类原因:
- 环境隔离:LLM无法感知实时数据,如股价、新闻、时间、公司内部的文档
- 缺乏执行能力:缺乏API调用和软件操作能力,如下单、浏览器控制
- 任务拆解:难以自动拆解多步骤任务,如“收集Agent资料并生成报告发送指定人”
- 状态维持:需要长期记忆用户偏好,如咖啡订单的“去冰无糖”,没这个能力的就会每次都当你第一次点一样
四、预告
接下来对后续内容也做个预告。在介绍完Agent的一些核心组件后,我会带大家实现一个完整的MCP Server,然后借助所实现的这个MCP Server,通过Cherry Studio实现一个数据洞察Agent,通过输入一个Excel文件路径,能够调用工具自动预览数据,并根据数据本身的特点,来拆解要分析的问题,然后分别调用ChatBI工具和可视化工具完成数据分析,最终生成一份完整的数据洞察报告。再之后我们还会通过写代码的方式,来实现与Cherry Studio类似的功能,以便深入理解细节。
虽然这种做数据分析Agent的Demo已经很多了,但不少都只是使用了Excel读取工具,分析交给了大模型,这样做有两个弊端:
- 数据分析通常需要进行复杂的运算,大模型本身并不擅长的,很容易出现大家常说的幻觉
- 受限于大模型上下文长度限制,使用大模型直接分析数据,不能支持比较大的文件,上下文会爆
业界通常都是通过生成代码(像ChatGPT、Claude、豆包、元宝等),或者调用现成的数据分析工具来实现的。
使用Cherry Studio的实现的效果如下:



五、如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)