人工智能代理（AI Agents）与具能动性的人工智能（Agentic AI）：概念分类、应用与挑战

来源：CreateAMindAI Agents vs. Agentic AI: A Conceptual taxonomy, applications andchallenges人工智能代理（AI Agents）与具能动性的人工智能（Agentic AI）：概念分类、应用与挑战https://arxiv.org/pdf/2505.10468摘要在生成式人工智能（Generative AI）时代背

人工智能学家

627人浏览 · 2025-11-20 17:27:23

人工智能学家 · 2025-11-20 17:27:23 发布

来源：CreateAMind

AI Agents vs. Agentic AI: A Conceptual taxonomy, applications andchallenges

人工智能代理（AI Agents）与具能动性的人工智能（Agentic AI）：概念分类、应用与挑战

https://arxiv.org/pdf/2505.10468

摘要
在生成式人工智能（Generative AI）时代背景下，信息融合必须明确区分“人工智能代理”（AI Agents）与“具能动性的人工智能”（Agentic AI）。本综述对二者进行了批判性区分，提出了一个结构化的概念分类体系、应用映射分析，并探讨了各自所面临的机会与挑战，以厘清二者在设计理念与能力上的根本差异。我们首先概述了文献检索策略与基础定义，将AI Agents界定为由大语言模型（LLMs）与大推理模型（LIMs）驱动并赋能的模块化系统，旨在实现任务特定的自动化；生成式AI则被视为其前身，为AI Agents提供基础支撑，而AI Agents则通过工具集成、提示工程（prompt engineering）与推理能力增强得以进一步发展。随后，我们刻画了Agentic AI系统：与AI Agents不同，Agentic AI代表了一种范式转变，其特征包括多智能体协作、动态任务分解、持久记忆以及协调性自主能力。我们通过对其架构演进、运行机制、交互方式与自主性水平的时序性评估，对AI Agents与Agentic AI两类范式展开了系统性对比分析。在应用层面，AI Agents所支撑的领域（如客户服务、日程安排、数据摘要）被与Agentic AI的应用场景（如科研自动化、机器人协同控制、医疗决策支持）进行对照。我们进一步剖析了两类范式各自特有的挑战——例如幻觉（hallucination）、脆弱性（brittleness）、涌现行为（emergent behavior）与协作失效（coordination failure），并提出了针对性解决方案，包括ReAct推理循环、检索增强生成（RAG）、自动化协调层以及因果建模等。本工作旨在为构建鲁棒、可扩展且可解释的AI驱动系统提供发展路线图。

关键词：人工智能代理（AI Agents）、具能动性的人工智能（Agentic AI）、上下文感知（Context awareness）、多智能体系统（Multi-agent systems）、概念分类（Conceptual taxonomy）

引言

在人工智能代理（AI Agents）与具能动性的人工智能（Agentic AI）（见图1）于2022年前后（即ChatGPT发布之前）被广泛采用之前，自主与智能体的发展深深植根于人工智能的基础范式之中，尤其是多智能体系统（Multi-Agent Systems, MAS）与专家系统——这些范式强调社会性行动与分布式智能［1, 2］。值得注意的是，Castelfranchi［3］通过引入关于社会行动、社会结构与心智的本体论范畴，为该领域奠定了关键性基础；他主张，社会性产生于个体智能体在共享环境中所采取的行动及其认知过程，并指出“目标委派”（goal delegation）与“目标采纳”（goal adoption）等概念构成了合作行为与组织行为的基础。类似地，Ferber［4］提出了一个面向多智能体系统的综合性框架，将智能体定义为具备自主性、感知能力与通信能力的实体，并强调其在分布式问题求解、协作机器人以及合成世界仿真等领域的应用。

这些早期研究确立了个体社会行动与认知架构对于建模集体现象的根本性作用，为现代AI Agents的发展奠定了基础。本文在上述基础性概念之上进一步展开探讨，旨在考察［3, 4］中提出的社会行动建模范式如何指导AI Agents的设计，使其能够在动态环境中执行复杂且具备社会智能的交互行为。

传统类代理系统（Classical Agent-like systems）被设计用于执行具有预定义规则的特定任务，其自主性极为有限，且对动态环境的适应能力薄弱。此类系统主要表现为反应式（reactive）或慎思式（deliberative）架构，依赖符号推理、基于规则的逻辑或脚本化行为，而非现代AI Agents所具备的学习驱动与上下文感知能力［5, 6］。例如，专家系统通过知识库与推理引擎模拟人类在特定领域的决策过程（如医疗诊断系统MYCIN［7］）。其他著名实例还包括用于分子结构预测的专家系统DENDRAL［8］、用于计算机系统配置的XCON［9］，以及基于规则的产生式系统框架CLIPS［10］。SOAR［11］与次级架构（subsumption architecture）［12］进一步将符号逻辑与反应式逻辑拓展至认知建模与机器人领域。

除任务特定推理之外，这些早期智能体还支持有限形式的社会性交互。例如，早期对话系统ELIZA［13］与PARRY［14］通过模式匹配与脚本式响应模拟基础对话，但缺乏真实理解能力或上下文适应性；机器人中的反应式智能体则基于固定控制规则执行“感知—行动”循环，如早期自主平台Stanford Cart［15］所示。

多智能体系统则实现了分布式实体之间的协调协作，其典型应用包括供应链管理中的基于拍卖的资源分配机制［16–18］。电子游戏中的脚本化AI（如早期角色扮演游戏中的非玩家角色NPC行为）则采用预定义的决策树实现行为控制［19］。此外，BDI（信念—愿望—意图，Belief-Desire-Intention）架构使软件智能体具备目标导向行为能力，如应用于空管模拟系统中的智能体［20, 21］。

然而，跨越上述各类系统，早期AI智能体普遍存在若干共性局限：缺乏自学习能力、生成式推理能力，以及对非结构化或演化环境的适应能力。这些缺陷使其显著区别于“具能动性人工智能”（Agentic AI）——后者是一种新兴范式，依托深度学习、强化学习与基础模型（foundation models），赋能智能体实现上下文感知、持续学习与涌现式自主性［22］。

近期学术界、工业界及公众对AI Agents与Agentic AI的高度关注，正反映了系统能力层面的这一重大跃迁。如图1所示，Google Trends数据显示，在2022年末大规模生成式模型兴起之后，全球对这两个术语的搜索量均显著上升。这一转变与智能体设计范式的演进密切相关：从2022年之前智能体运行于受限、规则化环境的阶段，过渡到大语言模型（LLM）时代之后以学习驱动、灵活适应为特征的架构［23–25］。新一代系统使智能体能够随时间持续优化性能，并与非结构化、动态的输入实现自主交互［26–28］。例如，传统专家系统需人工更新静态知识库，而现代智能体则借助涌现式神经架构实现跨任务泛化［25］。搜索热度的激增反映了人们对这一技术飞跃日益增长的认知——研究者与从业者正积极寻求超越自动化、迈向自主性与通用推理能力的工具。此外，其应用范畴亦不再局限于仿真或物流等狭窄领域，而扩展至需实时推理与自适应控制的广泛现实场景。如图1所示，这一发展势头凸显了近期架构创新在推动自主智能体规模化落地现实世界中的重要意义。

2022年11月ChatGPT的发布标志着人工智能发展与公众认知的关键拐点，引发了全球范围内技术采纳、投资与研究活动的井喷式增长［29］。在此突破之后，AI格局迅速转型——从独立使用的LLM逐步转向更具自主性与任务导向性的框架［30］。这一演进经历了两大后生成式阶段：AI Agents 与 Agentic AI。

最初，ChatGPT的巨大成功推动了“生成式智能体”（Generative Agents）的普及——这类基于LLM的系统旨在根据用户提示生成新颖输出（如文本、图像与代码）［31, 32］。此类智能体被迅速应用于各类场景：从对话助手（如GitHub Copilot［33］）、内容生成平台（如Jasper［34］）到创意工具（如Midjourney［35］），于2023年及以后彻底革新了数字设计、市场营销与软件原型开发等领域。

尽管“AI Agent”一词最早于1998年提出［3］，但其内涵随着生成式AI的兴起已发生显著演进。在此生成式基础之上，一类新型系统——现今通称的AI Agents——应运而生。此类智能体通过集成外部工具调用（如基于API的工具）、函数调用与序列化推理等能力，对LLM进行增强，使其可自主获取实时信息并执行多步骤工作流［36, 37］。代表性框架如AutoGPT［38］与BabyAGI（https://github.com/yoheinakajima/babyagi）凸显了这一转变：它们展示了如何将LLM嵌入反馈循环中，以在目标驱动环境中动态规划、行动与适应［39 , 40］。

至2023年末，该领域进一步迈向Agentic AI新阶段——即由多个专业化智能体组成的复杂多智能体系统，这些智能体通过协作分解目标、相互通信并在更大工作流中协调行动，以达成共同目标。顺应此趋势，谷歌于2025年推出智能体间协议（Agent-to-Agent, A2A）［41］，一项旨在实现跨框架与跨厂商智能体间无缝互操作的标准化提案。该协议围绕五大核心原则构建：拥抱能动性能力、基于既有标准扩展、默认保障交互安全、支持长时运行任务，以及确保模态无关性（modality agnosticism）。这些准则旨在为构建响应迅速、可扩展的能动性基础设施奠定基础。

CrewAI等架构展示了此类能动性框架如何在分布式角色间实现决策协同，从而在机器人、物流管理与自适应决策支持等高风险应用中促成高阶智能行为［42］。

随着领域从生成式智能体向日益自主的Agentic AI系统演进，厘清AI Agents与Agentic AI之间的技术与概念边界变得至关重要。尽管两类范式均以LLM为基础并拓展了生成式系统的能力，但其底层架构、交互模型与自主性层级存在根本差异：

AI Agents
通常被设计为单实体系统，通过调用外部工具、实施序列化推理并整合实时信息，以完成明确定义的目标导向任务［25, 43］；
Agentic AI系统
则由多个专业化智能体构成，它们在更大工作流中动态分配子任务、相互协调与通信，以共同实现目标［22, 44］。

这一架构差异凸显了二者在可扩展性、适应性及应用广度上的显著区别。

对AI Agents与Agentic AI之间分类体系的界定与形式化，在科学层面具有多重重要意义：

首先，它有助于实现更精准的系统设计——将计算框架与问题复杂度相匹配：即对模块化、工具辅助型任务部署AI Agents，而对需协同执行的多智能体操作采用Agentic AI；其次，它支持恰当的基准测试与评估：面向单任务执行的智能体与面向复杂协同任务的分布式智能体系统，在性能指标、安全协议与资源需求等方面存在显著差异；再者，清晰的分类体系可减少开发低效问题，例如避免将适用于多智能体协作的设计原则误用于单智能体架构的系统中。缺乏此等明晰性，开发者与实践者既可能低估需能动性协作的复杂场景，导致系统能力不足；亦可能高估简单应用场景的需求，造成过度工程化。

本文旨在厘清AI Agents与Agentic AI之间的差异，为研究者提供对这些技术的基础性理解。本研究的目标是：

明确二者的形式化区别；
建立共享术语体系；

构建一个结构化的概念分类框架（如图2所示），以指导学术界与工业界下一代智能体系统的设计。

本综述亦对从传统AI Agents到新兴Agentic AI系统的演进历程进行了全面的概念与架构分析。区别于常规综述文章围绕形式化研究问题组织内容的方式，本文采用一种时序性、分层递进的结构，清晰呈现两类范式的历史脉络与技术演进路径。

我们首先详述文献检索策略与筛选标准，继而通过剖析其核心属性（如自主性、反应性与工具调用执行能力），确立对AI Agents的基础认识；随后探讨基础模型——特别是大语言模型（LLMs）与大图像模型（LIMs）——的关键作用：它们作为核心推理与感知引擎，驱动智能体行为的生成；后续章节考察生成式AI系统如何作为先驱，推动更具动态性与交互性的智能体发展，从而为Agentic AI的出现铺平道路。

基于此视角，我们呈现并分析了从孤立单智能体系统向协同多智能体架构的概念跨越，重点突出其结构差异、协调策略与协作机制；我们进一步通过解析AI Agents与Agentic AI的核心系统组件，映射其架构演进历程，并对二者的规划层、记忆层、编排层与执行层进行对比性描述；

在此基础之上，我们综述了涵盖客户服务、医疗健康、科研自动化与机器人等领域的应用场景，并依据系统能力与协作复杂度对现实部署案例进行分类；随后评估两类范式所面临的关键挑战——包括幻觉、推理深度不足、因果建模缺失、可扩展性瓶颈与治理风险；针对上述局限，我们概述了新兴解决方案的发展机遇，例如检索增强生成（RAG）、工具辅助推理、记忆架构设计以及基于仿真的规划方法。

最后，本综述提出一项前瞻性路线图，展望模块化AI Agents与协同式Agentic AI在自动驾驶、金融、医疗等关键任务领域乃至更广泛场景中的融合前景。我们旨在为研究者提供一套结构化的分类体系与可操作的洞见，以指导下一代能动性AI系统的设计、部署与评估。

尽管学界对AI Agents与Agentic AI的兴趣日益增长，现有综述工作往往将二者笼统归入“智能体”这一宽泛范畴之下，导致概念模糊与系统设计错位。近期文献要么狭隘聚焦于工具增强型LLM在任务自动化中的应用，要么泛泛讨论多智能体系统，却未能充分认知Agentic AI所带来的架构与功能层面的范式转变。

本综述首次提出一套结构化的分类体系，从自主性（autonomy）、协调性（coordination）、交互方式（interaction）与推理范围（reasoning scope）等维度，对这两类范式进行形式化区分。通过将AI Agents界定为模块化、单实体系统，而将Agentic AI界定为具备涌现行为的协同式生态系统，本研究有效填补了当前在设计原则、部署策略与评估标准等方面的区分空白。

这一区分在当下尤显关键：现实世界应用（如机器人、医疗健康与科学发现）正日益要求具备可扩展性的多智能体智能，然而开发者往往缺乏清晰的框架来抉择——究竟应采用孤立式智能体，抑或协作式能动架构。本综述正旨在弥合此一鸿沟，促使系统能力与任务复杂度实现更精准的对齐，并为后LLM时代的科研议程设定与实际系统部署提供理论指导与实践依据。

1.1 方法论概述

本综述采用一种结构化、多阶段的研究方法，旨在系统把握AI Agents与Agentic AI的演进历程、架构特征、应用场景及现存局限。该方法流程如图3所示，清晰勾勒出本研究中各主题与概念的递进逻辑关系。分析框架的设计聚焦于呈现从以LLM为基础的基本能动结构，到高级多智能体协同系统的演进路径。综述各环节均基于对学术文献及AI赋能平台所发布成果的严谨综合与提炼，从而实现对当前研究格局及其新兴趋势的全面把握。

综述首先确立对AI Agents的基础性理解，考察文献中对其核心定义、设计原则与架构模块的描述，包括感知（perception）、推理（reasoning）与行动选择（action selection）等组件，以及早期应用实例（如客户服务机器人与检索助手）。该基础层构成进入更广义能动范式的概念入口点。

其次，我们探讨大语言模型（LLMs）作为核心推理组件的关键作用，着重阐明预训练语言模型如何赋能现代AI Agents。本节详述：通过指令微调（instruction fine-tuning）与基于人类反馈的强化学习（RLHF），LLMs得以支撑自然语言交互、任务规划与有限决策能力；同时，亦指出其局限性，例如幻觉（hallucination）、静态知识库、以及因果推理能力的缺失。

在此基础之上，综述进一步探讨Agentic AI的兴起——这一阶段代表着重要的概念跃升。我们着重强调其从“工具增强型单智能体系统”向“协作式、分布式智能体生态系统”的根本性转变。这一转变源于现实需求：系统需具备目标分解、子任务分配、输出协调及对动态变化环境的自适应能力——这些能力已远超孤立AI Agents所能实现的范畴。

随后一节考察从AI Agents到Agentic AI系统的架构演进，对比简单模块化智能体设计与复杂协同框架之间的差异。我们描述了多项关键增强机制，例如持久记忆（persistent memory）、元智能体协调（meta-agent coordination）、多智能体规划循环（如ReAct与思维链（Chain-of-Thought）提示）、以及语义通信协议（semantic communication protocols）。该架构对比分析辅以AutoGPT、CrewAI与LangGraph等平台的具体案例予以支撑。

在完成架构探索之后，综述深入剖析AI Agents与Agentic AI当前落地的应用领域。本文分别选取两类范式各四个代表性应用场景进行讨论：

对于AI Agents，包括：客户服务自动化、企业内部搜索增强、邮件过滤与优先级排序，以及个性化内容推荐；
对于Agentic AI，则涵盖：多智能体科研助手、智能机器人协同控制、协作式医疗决策支持，以及自适应工作流自动化。

上述用例均从系统复杂度、实时决策能力及协作任务执行等方面展开分析。

继而，我们探讨两类范式固有的挑战与局限：

针对AI Agents，聚焦于幻觉、提示脆弱性（prompt brittleness）、规划能力有限，以及缺乏因果理解等问题；
针对Agentic AI，则识别出更高阶的挑战，如智能体间目标错位（inter-agent misalignment）、错误传播、涌现行为的不可预测性、可解释性缺陷，以及对抗性脆弱性（adversarial vulnerabilities）。这些问题均结合近期实验研究与技术报告予以批判性剖析。

最后，综述概述了应对上述挑战的潜在解决方案，援引因果建模、检索增强生成（RAG）、多智能体记忆框架，以及鲁棒评估流程等最新进展。这些策略不仅被视作技术修补手段，更被视为将能动系统规模化部署至高风险领域（如医疗、金融与自动驾驶机器人）所必需的基础性保障。

综上所述，本方法论结构使我们得以对AI Agents与Agentic AI的研究现状进行系统、全面的评估。通过将分析依次安排为：基础认知 → 模型集成 → 架构演进 → 应用场景 → 局限与挑战 → 潜在解决方案，本研究旨在为身处这一快速演变领域中的研究者与实践者提供兼具理论明晰性与实践指导价值的参考框架。

1.1.1 检索策略

为完成本综述，我们采用了一种混合式文献检索方法，结合传统学术数据库与AI增强型文献发现工具。具体而言，共检索了12个平台：

学术数据库包括：Google Scholar、IEEE Xplore、ACM数字图书馆（ACM Digital Library）、Scopus、Web of Science、ScienceDirect 和 arXiv；
AI驱动的检索接口包括：ChatGPT、Perplexity.ai、DeepSeek、Hugging Face Search 以及 Grok。

检索查询采用布尔逻辑组合关键词，如“AI Agents”（人工智能代理）、“Agentic AI”（具能动性人工智能）、“LLM Agents”（大语言模型代理）、“Tool-augmented LLMs”（工具增强型大语言模型）以及“Multi-Agent AI Systems”（多智能体人工智能系统）。此外，还使用了针对性更强的组合查询，例如“Agentic AI + Coordination + Planning”（具能动性人工智能 + 协调 + 规划）和“AI Agents + Tool Usage + Reasoning”（人工智能代理 + 工具使用 + 推理），以筛选出同时涵盖概念基础与系统级实现的研究文献。

文献纳入标准基于其在新颖性、实证评估、架构贡献与引用影响力等方面的显著价值。如图1所示，Google Trends数据显示全球对这些技术的关注度持续攀升，进一步凸显了对这一新兴知识领域进行系统整合的紧迫性。

AI Agents的基础性理解

AI Agents可被定义为：在限定的数字环境中、为实现目标导向型任务执行而设计的自主性软件实体［22, 45］。其核心特征在于能够：

感知结构化或非结构化输入［46］；
基于上下文信息进行推理［47, 48］；
为达成特定目标而发起行动，常作为人类用户或子系统的代理［49］。

与遵循确定性流程的传统自动化脚本不同，AI Agents展现出反应式智能与一定程度的适应性，使其能够解读动态输入并相应调整输出［50］。其应用已广泛见诸诸多领域，包括客户服务自动化［51, 52］、个人生产力辅助［53］、组织级信息检索［54, 55］以及决策支持系统［56, 57］。

AI Agents实现自主性的一个突出实例是Anthropic的“Computer Use”（计算机操作）项目。该项目展示了其Claude模型如何以近似人类的方式与计算机交互：Claude经训练可视觉识别屏幕内容、操控鼠标与键盘，并在各类软件应用间导航。借此，Claude不仅能自动化重复性任务（如填写表格、复制数据），还可执行更复杂的活动——例如通过打开代码编辑器、运行命令、调试问题等方式构建并测试软件。除上述结构化任务外，Claude还能处理开放式任务，如开展在线调研、从多源整合信息，乃至根据调研结果自主创建日历事件。

其关键创新在于Claude运行于一个“代理循环”（agent loop）之中：它接收目标→决定下一步行动→执行该行动→观察结果→重复该过程，直至任务完成。这一机制使Claude得以独立调用现有计算机工具与界面，实现广泛目标的自动化——既涵盖常规流程，亦包括复杂工作流，堪称自主AI Agents赋能现实任务自动化的典范。

2.0.1 AI Agents的核心特征

学界普遍将AI Agents概念化为：一种被实例化部署的人工智能操作单元，旨在与用户、软件生态系统或数字基础设施交互，以生成目标导向行为［58–60］。与通用大语言模型（LLMs）相比，AI Agents展现出结构性初始化、有限自主性与持续任务导向性等特质。LLMs本质上主要是对提示作出反应的“被动跟随者”［61］，而AI Agents则能在明确定义的范围内自动运行，动态响应输入，并在实时环境中产出可执行输出［62］。

如图4所示，当前主流架构分类体系及实际部署中的AI Agents普遍包含以下三项基础性特征：自主性（autonomy）、任务特异性（task-specificity）以及具备适应能力的反应性（reactivity with adaptation）。

这三项特征共同构成了理解与评估不同应用场景中AI Agents的基础框架。本节余下部分将逐一详述各特征，并辅以理论背景与实例说明。

自主性（Autonomy）：AI Agents的一个核心特征是，部署后可在极小或无需人工干预的情况下运行［63］。一旦初始化完成，这些智能体便能够感知环境输入、基于上下文数据进行推理，并实时执行预设或自适应的动作［25］。在需要持续人工监督（human-in-the-loop）不切实际的应用场景中——如客户服务机器人或日程助理——自主性使得规模化部署成为可能［52, 64］。
任务特异性（Task-Specificity）：AI Agents是为狭窄且定义明确的任务而专门构建的［65, 66］。它们被优化用于在固定领域内执行可重复的操作，例如邮件过滤［67, 68］、数据库查询［69］或日历协调［44, 70］。这种任务专业化使它们在自动化那些无需或不适合通用推理的任务时，具备高效率、高可解释性与高精确度。
反应性与适应性（Reactivity and Adaptation）：AI Agents通常包含与动态输入交互的基本机制，使其能够响应实时刺激，例如用户请求、外部API调用或软件环境中状态的变化［25, 71］。部分系统通过反馈循环［73, 74］、启发式方法［75］或更新后的上下文缓存区，整合基础学习能力［72］，以随时间推移不断优化行为表现，尤其适用于个性化推荐或对话流程管理等场景［76–78］。

上述核心特征共同使AI Agents能够作为模块化、轻量级接口，连接预训练AI模型与特定领域的实用流水线。其架构简洁性与操作高效性，使其成为企业、消费及工业场景下可扩展自动化的核心推动者。尽管目前尚无明确研究涉及将AI Agents与专用推理型大语言模型集成，但它们在受限任务边界内展现出的高度可用性与性能，已使其成为当代智能系统设计中的基础组成要素。

2.0.2 基础模型：LLMs与LIMs的作用

人工智能代理（AI Agents）的发展在很大程度上得益于大语言模型（LLMs）与大图像模型（LIMs）的基础性进展与实际部署——二者共同构成当代智能体系统的核心推理引擎与感知引擎。这些模型使AI Agents得以智能地与其环境交互，理解多模态输入，并执行超越硬编码自动化的复杂推理任务。

诸如GPT-4［79］和PaLM［80］等大语言模型（LLMs），是在海量文本数据（包括书籍、网页内容及对话语料库）上训练而成的。这些模型展现出诸如自然语言理解、问答、文本摘要、对话连贯性，乃至符号推理等涌现能力［81–83］。在AI Agent架构中，LLMs充当核心决策引擎，使智能体能够解析用户查询、规划多步骤解决方案，并生成类人响应。例如，一个基于GPT-4驱动的AI客户服务代理，可理解客户投诉内容，通过工具集成查询后端系统，并以符合上下文且具备情感感知的方式作出回应［84, 85］。

大图像模型（Large Image Models, LIMs），如CLIP［86］与BLIP-2［87］，则将智能体的能力拓展至视觉领域。LIMs基于图文配对数据进行训练，支持图像分类、目标检测及视觉—语言对齐等感知型任务。这些能力对运行于机器人［88］、自动驾驶车辆［89, 90］及视觉内容审核［91, 92］等领域的智能体日益关键。

例如，如图5所示：当一个自主无人机智能体被指派执行果园监测任务时，LIM可通过解析实时航拍影像，识别出患病果实［93］或受损枝条；一经检测，系统即可自动触发预设干预协议——如通知园艺人员，或标记位置以供定向处理——全程无需人工介入［25, 63］。该工作流典型体现了AI Agents在农业环境中的自主性与反应性，而近期文献亦指出：此类基于无人机的AI Agents正日趋成熟与复杂。

Chitra等人［94］对具身智能体所依赖的基础AI算法进行了全面综述，着重探讨了计算机视觉、同步定位与建图（SLAM）、强化学习及多传感器融合的集成应用；上述组件共同支撑智能体在动态环境中实现实时感知与自适应导航。Kourav等人［95］进一步强调了自然语言处理与LLMs在根据人类指令生成无人机行动方案中的作用，展示了LLMs如何支持自然化交互与任务规划。类似地，Natarajan等人［96］研究了深度学习与强化学习在空中机器人场景理解、空间建图及多智能体协调中的应用。这些研究共同指向一个核心结论：AI驱动的自主性、感知能力和决策能力，是推动无人机智能体发展的关键所在。

尤为重要的是，LLMs与LIMs通常通过云平台（如OpenAI、Hugging Face及Google Gemini）所提供的推理API进行调用。此类服务将模型训练与微调的复杂性封装隐藏，使开发者得以快速构建并部署具备前沿推理与感知能力的智能体。这种可集成性极大加速了原型开发进程，并使LangChain［97］与AutoGen［98］等智能体框架得以在任务工作流中协同调度LLM与LIM的输出。

简言之，基础AI模型赋予现代AI Agents对语言与场景的基本理解能力：语言模型助其以文字进行推理，图像模型助其解读图像；二者协同工作，使AI Agents得以在复杂情境中作出智能决策。

2.0.3 生成式AI作为先驱

文献中持续出现的一个主题是：将生成式AI定位为能动性智能（agentic intelligence）的基础性先驱。此类系统主要基于预训练的大语言模型（LLMs）与大图像模型（LIMs）构建，其优化目标在于根据输入提示合成多模态内容，包括文本、图像、音频或代码。尽管生成式模型具有高度的交互性，但其本质仍表现为反应性行为：它们仅在被明确提示时才生成输出，既不自主追求目标，也不进行自发性推理［99, 100］。

生成式AI的关键特征如下：

反应性（Reactivity）：
作为非自主系统，生成式模型完全由输入驱动［101, 102］。其运行仅由用户指定的提示触发，缺乏内部状态、持久记忆或目标追踪机制［103–105］。
多模态能力（Multi-modal Capability）：
现代生成式系统可产出丰富多样的输出，包括连贯的叙事文本、可执行代码、逼真图像乃至语音转录文本。例如，GPT-4［79］、PaLM-E［106］与BLIP-2［87］等模型已展现出此类能力，可支持文本→图像、图像→文本以及跨模态合成等任务。
依赖提示与无状态性（Prompt Dependency and Statelessness）：
尽管生成式系统本质上是无状态的——即除非通过提示显式提供上下文，否则无法在交互间保留记忆［107, 108］——但近期进展（如GPT-4.1）已支持高达百万token的上下文窗口长度，并凭借更强的长文本理解能力，更有效地利用该扩展上下文［109］。
然而，其架构仍缺乏内在反馈循环［110］、状态管理机制［111, 112］，以及多步规划能力——而后者正是实现自主决策与迭代式目标优化所必需的［113, 114］。

尽管生成式系统在内容生成的保真度上表现卓越，但其根本局限在于无法主动作用于环境，或独立操控数字工具。例如，若无人工设计的封装层（wrappers）或支撑架构（scaffolding layers），它们无法自主执行网页搜索、解析实时数据或与API进行交互。因此，这类系统尚不足以被归类为真正的AI Agents——后者需在其架构中整合感知、决策与外部工具调用能力，并形成闭环反馈机制。

生成式AI在处理动态任务、维持状态连续性或执行多步骤规划等方面的不足，催生了工具增强型系统，即现今通称的AI Agents［115］。此类系统以LLM的语言处理能力为骨干，同时引入额外基础设施——如记忆缓冲区、工具调用API、推理链（reasoning chains）与规划例程（planning routines）——从而弥合“被动响应生成”与“主动任务完成”之间的鸿沟。

这一架构演进标志着AI系统设计的关键性转向：从内容生成迈向自主任务执行［116, 117］。从生成式系统到AI Agents的发展趋势，体现出功能层级的渐进式叠加，最终为能动性行为（agentic behaviors）的涌现奠定了基础。

2.1 语言模型作为AI Agent演进的核心引擎

AI Agent作为一种变革性范式在人工智能领域的兴起，与大规模语言模型（如GPT-3［118］、Llama［119］、T5［120］、Baichuan 2［121］以及GPT3mix［122］）的演进及其功能再定位密切相关。大量且持续增长的研究表明，从被动响应的生成式模型迈向自主、目标导向型智能体的这一进步，正是通过将LLMs作为核心推理引擎嵌入动态能动系统而实现的。这些模型最初为自然语言处理任务而训练，如今正被越来越多地集成于需具备自适应规划［123, 124］、实时决策［125, 126］及环境感知行为［127］能力的框架之中。

2.1.1 LLMs作为核心推理组件

诸如GPT-4［79］、PaLM［80］、Claude 3.5 Sonnet以及LLaMA［119］等大语言模型，均在海量文本语料上通过自监督目标进行预训练，并进一步采用监督微调（Supervised Fine-Tuning, SFT）与基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）［128, 129］等技术进行优化。这些模型编码了丰富的统计与语义知识，使其能够执行推理、摘要生成、代码生成及对话管理等任务。然而，在能动性应用场景中，其能力远不止于生成响应——它们作为认知引擎，可：

解读用户目标；
构思并评估可能的行动方案；
选择最优策略；
调用外部工具；
管理复杂、多步骤的工作流。

近期研究已明确指出，此类模型构成了当代能动系统架构的核心。例如，AutoGPT［38］与BabyAGI均以GPT-4同时作为规划器与执行器：该模型分析高层目标，将其分解为可执行的子任务，按需调用外部API，并持续监控进展以决定后续行动。在此类系统中，LLM运行于一个由“提示处理→状态更新→反馈修正”构成的循环之中，高度模拟了自主决策过程。

2.1.2 工具增强型AI Agents：功能拓展

为克服纯生成式系统固有的局限——如幻觉（hallucination）、知识截止（static knowledge cutoff）、交互范围受限等——研究者提出了工具增强型AI Agents的概念［130］，代表性系统包括Easytool［131］、Gentopia［132］与ToolFive［133］。此类系统将外部工具、API及计算平台整合进智能体的推理流程，使其得以：

实时访问信息；
执行代码；
与动态数据环境进行交互。

2.1.3 典型实例与新兴能力

基于工具增强的LLM驱动型AI Agents已在多种应用场景中展现出显著潜力：

在AutoGPT［38］中，智能体可依次执行网页查询、汇总竞品数据、提炼洞察并生成报告，从而完成产品市场分析的全流程规划；
在编程领域，如GPT-Engineer等工具将LLM驱动的设计能力与本地代码执行环境相结合，通过迭代开发生成软件制品——包括源代码、可执行文件（.exe）、文档及配置文件等［138, 139］；
在科研领域，Paper-QA［140］等系统利用LLM查询向量化构建的学术数据库，并将答案锚定于检索到的科学文献之上，以确保事实准确性与可追溯性。

上述能力为AI Agents更稳健的行为表现开辟了路径，例如：长时程规划（long-horizon planning）、跨工具协同（cross-tool coordination）以及自适应学习循环（adaptive learning loops）。

然而，工具的引入亦带来新的挑战，包括：协调复杂性增加、错误传播风险上升，以及上下文窗口容量限制等问题——这些均是当前活跃的研究方向。

AI Agents的发展进程与以下两点密不可分：

将LLMs战略性地集成作为推理引擎；
通过结构化方式调用外部工具（如搜索引擎与API）对其进行增强。

这种协同作用将静态的语言模型转化为具备感知—规划—行动—适应能力的动态认知智能体，从而为多智能体协作、持久记忆及可扩展自主性等Agentic AI系统的核心特征奠定基础。

例如，图6展示了一个典型用例：一个新闻查询智能体，可执行实时网络搜索、摘要检索到的文档，并生成条理清晰、上下文敏感的回答。此类工作流已在基于LangChain、AutoGPT及OpenAI函数调用架构的实际实现中得到验证。

具能动性人工智能（Agentic AI）从AI Agent基础中的兴起

尽管AI Agents在人工智能能力方面已实现显著跃升——尤其在通过工具增强型推理实现狭义任务自动化方面——近期文献指出其存在明显局限，制约了其在复杂、动态、多步骤及/或协作性场景中的可扩展性［141–143］。这些局限催生了一种更先进的范式：具能动性人工智能（Agentic AI）。

这一新兴系统类别通过结构化通信［144–146］、共享记忆［147, 148］与动态角色分配［22］等机制，使多个智能实体能够协同追求共同目标，从而显著拓展了传统AI Agents的能力边界。

3.0.1 概念跃迁：从孤立智能体到协同系统

如前文所述，AI Agents通过将大语言模型（LLMs）与外部工具及API集成，可执行范围狭窄的操作，例如响应客户咨询、执行文档检索或管理日程安排。然而，随着应用场景日益要求具备上下文保持能力、任务间依赖性处理能力，以及在动态环境中的适应性，单智能体模型已显不足［149, 150］。

Agentic AI系统代表了一类新兴的智能架构：其中多个专业化智能体通过协同推理与多步骤规划，共同实现复杂、高阶目标［41］。依据近期提出的框架定义，此类系统由若干模块化智能体组成——每个智能体负责整体目标中的某一特定子任务，并通过集中式协调器或去中心化协议进行协同［24, 145］。该结构标志着一种概念性转变：从单智能体架构中常见的个体化、反应式行为，转向一种以智能体间动态协作为特征的系统级智能。

推动这一范式的关键机制之一是目标分解（goal decomposition）：由规划型智能体自动解析用户指定的目标，并将其拆分为若干更小、可管理的子任务［44］；随后，这些子任务被分发至整个智能体网络中。多步骤推理与规划机制进一步促成子任务的动态排序，使系统能在环境变化或部分任务失败时实时调整策略。此类能动架构确保了即便在不确定性条件下，任务执行仍具备稳健性［22］。

智能体间的通信通过分布式通信渠道实现，例如异步消息队列、共享记忆缓冲区或中间输出交换等，从而实现在无需持续中央监管的前提下完成协调［22, 151］。此外，反思式推理（reflective reasoning）与记忆系统使智能体得以跨多次交互存储上下文、评估过往决策，并迭代优化其策略［152］。综合而言，这些能力使Agentic AI系统展现出灵活、自适应、合作性与协同性的智能，远超单个智能体的运作极限。

文献中广泛采用的一个被普遍接受的概念性示意图，借由智能家居系统的类比清晰界定了AI Agents与Agentic AI之间的区别。如图7所示：

左侧代表以智能恒温器形式存在的传统AI Agent：该独立智能体接收用户设定的目标温度后，自主控制供暖或制冷系统以维持设定值。尽管它具备有限自主性（例如学习用户作息规律，或在住户离开时降低能耗），但其运作完全孤立——仅执行单一、明确定义的任务，不参与更广泛的环境协调或目标推断［25, 63］。
右侧则展示了嵌入于综合性智能家居生态中的Agentic AI系统：在此系统中，多个专业化智能体协同工作，共同管理天气预报、日程安排、电价优化、安防监控及备用电源激活等多样化功能。这些智能体不仅是被动响应模块，更能动态通信、共享记忆状态，并协同调控行动，以达成高层系统目标（例如实时优化舒适性、安全性与能效）。
例如，天气预报智能体可预警即将到来的热浪，促使能源管理智能体提前协调，在电价高峰前利用太阳能进行预制冷；与此同时，系统还可根据住户是否在场，动态推迟高能耗任务或激活安防监控——实现跨领域决策融合。

该图例生动体现了从“任务特定型自动化”到“自适应、协同式智能”的架构与功能性飞跃：

AI Agent仅作为确定性、功能受限的单一组件；
Agentic AI则体现为分布式智能，其核心特征包括目标分解、智能体间通信与上下文自适应能力，代表了现代能动性AI框架的关键特质。

3.0.2 AI Agents 与 Agentic AI 的关键区别

为系统性地刻画从生成式 AI 到 AI Agents，再进一步演进至 Agentic AI 的发展脉络，我们围绕一个基础性分类体系构建了比较分析框架——其中，生成式 AI 作为基准参照点。尽管 AI Agents 与 Agentic AI 系统代表着日益自主化与交互化的系统形态，二者均以生成式架构（尤其是 LLMs 与 LIMs）为根基。因此，本小节中每一张对比表格均将生成式 AI设为参考列，以凸显能动行为如何既建立于又超越生成式 AI 的基础能力。

AI Agents 与 Agentic AI 系统之间的一组基本区别——尤其在作用范围（scope）、自主性（autonomy）、架构组成（architectural composition）、协调策略（coordination strategy）与操作复杂性（operational complexity）等方面——已综合提炼于表 1 与表 10中（后者源于对 AutoGen［98］与 ChatDev［153］等主流框架的深入分析）。该对比提供了多维度视角，揭示单智能体系统如何逐步过渡为协同式多智能体生态系统。借助生成能力这一视角，我们得以追踪规划、通信与适应性等维度上日益提升的复杂性，这些正是向 Agentic AI 系统演进的核心特征。

尽管表 1 勾勒出 AI Agents 与 Agentic AI 系统在基础与操作层面的差异，要深入理解这些范式如何从更广泛的生成式 AI 框架中衍生并相互关联，仍需一个更精细的分类体系。具体而言，从静态生成式 AI 系统 → 工具增强型 AI Agents → 协同式 Agentic AI 生态系统的概念性与认知性演进路径，亟需一个整合性比较框架。这一转变不仅体现在结构层面，更反映在功能层面——涵盖启动机制、记忆使用方式、学习能力与编排策略如何在整个能动谱系中逐步演化。此外，近期研究指出“生成式智能体（Generative Agents）”等混合范式的出现——此类系统融合生成建模与模块化任务专业化——进一步复杂化了 Agentic AI 的格局。为捕捉这些精细关联，表 2 综合了四大原型在关键概念与认知维度上的对比：

生成式 AI
AI Agents
Agentic AI 系统
推断所得的“生成式智能体”

通过将生成式 AI 设为基线技术，该分类凸显了一条从被动内容生成 → 交互式任务执行 → 自主多智能体协同的科学、结构与应用连续谱。这一多层次视角，对理解能动性智能在理论与应用领域的当前能力与未来趋势至关重要。

为使表 1 中所述区别更具可操作性，表 2 与 表 3 进一步拓展了对各类智能体范式的比较，涵盖更广泛的谱系（包括 AI Agents 与 Agentic AI）。

表 3
呈现了各范式在核心能力、规划范围、交互风格、学习动态与评估标准等方面的关键架构与行为属性差异。
如表所示：
- AI Agents 针对离散任务执行优化，规划视野有限，依赖监督式或基于规则的学习机制；
- Agentic AI 系统则通过多步骤规划、元学习（meta-learning）与智能体间通信扩展了这一能力，使其适用于需自主目标设定与协同的复杂环境；
- “生成式智能体”作为较新概念，继承以 LLM 为中心的预训练能力，在多模态内容生成方面表现卓越，但尚缺乏 Agentic AI 系统所具备的主动编排能力与状态持久性行为。

第二张表（表 3） 从过程驱动视角，对三类智能体（生成式 AI、AI Agents、Agentic AI）进行比较。该框架强调：功能流水线如何从生成式 AI 中的提示驱动单模型推理，演进为 AI Agents 的工具增强型执行，最终发展为 Agentic AI 中的协同智能体网络。

“结构”一栏清晰呈现此演进：从单一 LLM → 集成化工具链 → 分布式多智能体系统；
对外部数据的访问能力（现实应用的关键操作需求）亦随层级提升而日趋成熟：生成式 AI 中缺失或可选 → AI Agents 中模块化支持 → Agentic AI 中实现协调化整合。

综上，这些对比视角共同印证：从生成式到能动性范式的演进，不仅体现为系统复杂性的增加，更在于自主性、记忆与决策能力在多重抽象层级上的深度融合（参见表 4）。

为进一步深化对演进中能动格局的多维理解，表 5 至表 9 围绕五个关键维度展开拓展性比较：

核心功能与目标对齐性
架构组成
运作机制
作用范围与复杂性
交互–自主性动态关系

这些维度不仅强化了生成式 AI、AI Agents 与 Agentic AI 之间的结构性差异（如表 4 所述），还引入了一类新兴范畴——“生成式智能体”，即专为在更广泛工作流中嵌入子任务层级生成而设计的模块化智能体［154］。此类智能体通过紧密集成语言模型、记忆系统与行为规划模块，模拟类人行为，从而在典型的封闭世界环境中实现可信且自主的运作。

表 5 从总体目标与功能意图层面定位三类范式：
- 生成式 AI 聚焦于提示驱动的内容生成；
- AI Agents 强调基于工具的任务执行；
- Agentic AI 系统则负责完整工作流的协同编排——标志着 AI 自主性的一次关键跃升。
表 6 从架构层面映射该功能扩展：系统设计从生成式 AI 的单模型依赖，逐步演进至 Agentic AI 的多智能体协同与共享记忆利用。
表 7 则梳理各范式在工作流执行路径上的差异，突出智能体间协调与层级化通信作为能动行为的核心驱动因素。
表 8 进一步考察各系统所能处理的任务多样性、时间尺度与运行鲁棒性——范围从孤立内容生成，延伸至动态环境中的自适应多智能体协作。在此维度上，Agentic AI 显现出独特能力，可支撑需自适应、多阶段推理与执行策略的高复杂度目标。
表 9 综合各范式在自主性程度、交互风格与决策粒度上的差异。这些表格共同构建了一套严谨框架，用于分类与分析基于智能体的 AI 系统，为理论驱动的评估及未来面向大规模应用的自主、智能、协作型智能体的设计奠定基础。

表 5 至表 9 提供了对生成式 AI、AI Agents 与 Agentic AI 的分层比较分析，以操作性与架构性特征为锚点确立该分类体系。

表 5 突出核心区别：生成式 AI 生成反应式内容；AI Agents 执行工具辅助型任务；Agentic AI 则协调子智能体完成高层工作流执行——标志 AI 自主性的关键转折。
表 6 明确架构差异，尤重系统组成与控制逻辑：
- 生成式 AI 依赖单一模型，无内置工具调用或任务委派能力；
- AI Agents 将语言模型与辅助 API 及接口机制结合，以增强功能；
- Agentic AI 更进一步引入多智能体系统，将协作、记忆持久化与编排协议置于系统运作核心——此一拓展对实现智能任务委派、上下文保持及动态角色分配能力至关重要，而这些能力在生成式系统与单智能体系统中均告缺失。
表 7 呈现系统功能与运作差异，强调执行逻辑与信息流的区别：
- 生成式 AI 采用线性流水线（提示 → 输出）；
- AI Agents 引入过程内工具响应整合的程序化机制；
- Agentic AI 则引入递归式任务重分配与跨智能体消息传递，从而促成仅靠静态 LLM 输出无法实现的涌现式决策。
表 8 通过映射各系统在任务多样性、时间尺度与运行鲁棒性方面的承载能力，进一步强化上述区别——Agentic AI 在需自适应、多阶段推理与执行的高复杂度目标支持上独树一帜。

最后，表 9 聚焦生成式 AI、AI Agents 与 Agentic AI 在操作与行为层面的区别，尤其关注自主性层级、交互风格及智能体间协调：

生成式 AI 模型（如 GPT-3［118］、DALL·E 3）仍属反应式：仅依提示生成内容，无持久状态维持或迭代推理能力；
AI Agents（如基于 LangChain［97］或 MetaGPT［155］构建者）展现出更高自主性：可在限定任务内主动发起外部工具调用并调整行为；
然而，其自主性通常局限于孤立任务执行，缺乏长期状态连续性或协作式交互能力。

Agentic AI 系统通过引入内部编排机制与多智能体协作框架，显著区别于前述范式。例如，AutoGen［98］与 ChatDev［153］等平台便通过任务分解、角色分配与递归式反馈循环，典型地体现了能动性协同机制。在 AutoGen 中，一个智能体可担任规划者，另一智能体负责信息检索，第三个智能体则进行报告综合；各智能体通过共享记忆缓冲区相互通信，并由一个协调者智能体（orchestrator agent）统一监管任务依赖关系与整体进展。此类结构化协同机制，使得系统能够在动态环境中实现更复杂的目标追求与更灵活的行为响应。

此类架构从根本上将智能的焦点，从基于单一模型的输出，转向系统层级的行为——在该层级中，智能体可根据不断演化的任务状态进行学习、适应与决策更新。因此，本比较性分类体系不仅凸显了操作独立性层级的持续提升，更阐明了 Agentic AI 如何引入新型通信范式、记忆整合机制与去中心化控制模式，从而为下一代具备可扩展性与自适应性智能的自主系统铺平道路。

3.1 架构演进：从 AI Agents 到 Agentic AI 系统

尽管 AI Agents 与 Agentic AI 系统均采用模块化设计原则，Agentic AI 显著拓展了基础架构，以支持更复杂、分布式与自适应的行为。如图 8 所示，该演进始于构成传统 AI Agents 的核心子系统——感知（Perception）、推理（Reasoning）与行动（Action）；而 Agentic AI 在此基础上进一步集成了若干高级组件，包括：专业化智能体（Specialized Agents）、高级推理与规划（Advanced Reasoning & Planning）、持久记忆（Persistent Memory）以及编排机制（Orchestration）。图中还以虚线框突出强调了若干涌现能力——多智能体协作（Multi-Agent Collaboration）、系统级协调（System Coordination）、共享上下文（Shared Context）与任务分解（Task Decomposition）——该虚线框表征了系统架构向主动性、去中心化与目标驱动范式的根本性转变。如前所述，这一演进标志着智能体设计的关键拐点。本节综合了 LangChain［97］、AutoGPT［98］与 TaskMatrix［156］等实证框架的研究成果，系统梳理了架构复杂性的进阶历程。

3.1.1 AI Agents 的核心架构组件

基础型 AI Agents 通常由四个主要子系统构成：感知、推理、行动与学习。这些子系统形成一个闭环操作周期：

从用户界面视角，常被称为“理解—思考—行动—学习”（Understand, Think, Act, Learn）；
在系统设计文献中，则表述为“输入—处理—行动—学习”（Input, Processing, Action, Learning）［22, 157］。
感知模块（Perception Module）：
该子系统接收来自用户（如自然语言提示）或外部系统（如 API、文件上传、传感器数据流）的输入信号，并执行数据预处理，将其转换为推理模块可解析的格式。
例如，在基于 LangChain 的智能体中［97, 158］，感知层负责提示模板构建、上下文封装，以及通过文档分块与嵌入式检索实现的检索增强。
知识表示与推理模块（Knowledge Representation and Reasoning, KRR Module）：
作为智能体智能的核心，KRR 模块对输入数据施加符号化、统计性或混合式逻辑。其技术包括：
- 基于规则的逻辑（如 if-then 决策树）；
- 确定性工作流引擎；
- 简易规划图（planning graphs）。
  在 AutoGPT［38］等智能体中，推理能力通过函数调用与提示链（prompt chaining）得以增强，从而模拟思维过程——例如采用“逐步推理”（step-by-step）型提示，或插入中间工具调用环节。

行动选择与执行模块（Action Selection and Execution Module）：
该模块将推断出的知识与决策转化为外部行动，借助一个“行动库”（action library）实现。这些行动可能包括：发送消息、更新数据库、调用 API，或生成结构化输出。执行过程通常由中间件管理——例如 LangChain 的“代理执行器”（agent executor），它将大语言模型（LLM）的输出链接至工具调用，并观察响应以指导后续步骤［97］。
基础学习与适应机制（Basic Learning and Adaptation）：
传统 AI Agents 具备有限的学习机制，例如启发式参数调整［159, 160］或基于历史记录的上下文保留。举例而言，智能体可利用简单的记忆缓冲区回溯先前的用户输入，或应用评分机制以在未来迭代中优化工具选择。

对这些智能体的定制化通常涉及领域特定的提示工程、规则注入或工作流模板，使其区别于硬编码自动化脚本——关键在于它们具备做出上下文感知型决策的能力。ReAct 等系统［136］正是此类架构的典范：它在一个迭代框架中融合推理与行动，使智能体在选择外部行动前先模拟内部对话。

3.1.2 Agentic AI 中的架构增强

如前所述，Agentic AI 系统继承了 AI Agents 的模块化特性，但进一步拓展其架构，以支持分布式智能、智能体间通信与迭代式规划。文献中记载了若干关键性架构增强，它们使 Agentic AI 显著区别于其前身，并赋予其高度的灵活性与适应性［161, 162］：

专业化智能体集群（Ensemble of Specialized Agents）：与作为单一整体单元运作不同，Agentic AI 系统由多个智能体组成，每个智能体被赋予特定职能或任务（例如：摘要生成者、信息检索者或规划者）。这些智能体通过通信渠道（如消息队列、黑板系统或共享内存）相互交互。例如，MetaGPT［155］便突出体现了这一方法——它将智能体建模为公司各部门（如 CEO、CTO、工程师），其角色具有模块化、可复用性与角色绑定性（role-bound）。此处“角色绑定”意指：每个智能体的行为与职责严格由其被分配的角色定义，其行动范围被限制于该特定功能领域之内。
高级推理与规划能力（Advanced Reasoning and Planning）：Agentic 系统通过 ReAct［136］、思维链（Chain-of-Thought, CoT）提示［163］与“思维树”（Tree of Thoughts）［164］等框架，嵌入迭代式推理能力。这些机制使智能体能够将复杂任务分解为多个推理阶段，评估中间结果，并动态重规划行动——从而实现对不确定性或部分失败的自适应响应。
持久记忆架构（Persistent Memory Architectures）：与传统智能体不同，Agentic AI 集成了记忆子系统，可在任务周期或智能体会话之间保存并持久化知识［165, 166］。记忆类型包括：
- 情景记忆

（episodic memory）：任务特定的历史记录［167, 168］；

语义记忆
（semantic memory）：长期事实或结构化数据［169, 170］；
基于向量的记忆
：服务于检索增强生成（RAG）［171, 172］。例如，AutoGen［98］中的智能体维护“草稿板”（scratchpads）用于存储中间计算结果，从而支持分步式任务推进。

编排层／元智能体（Orchestration Layers / Meta-Agents）：Agentic AI 的一项关键创新是引入编排器——即元智能体（meta-agents），用于协调下属智能体的生命周期、管理依赖关系、分配角色并解决冲突。编排器常包括任务管理者、评估者或协调员（moderators）。例如，在 ChatDev［153］中，一个虚拟的 CEO 元智能体将子任务分派给各部门智能体，并将其输出整合为统一的战略性响应。

这些增强共同使 Agentic AI 能够支持需持续上下文保持、分布式任务分工、多模态协同与策略性自适应的场景。应用案例涵盖：

协同完成文献检索、摘要与文稿撰写的科研助手（如 AutoGen 工作流［98］）；
并行监控物流、供应商绩效与动态定价模型的智能供应链智能体。

从孤立的“感知—推理—行动”闭环，向协作式、自评估的多智能体工作流的转变，标志着智能系统架构设计的关键转折点——它使智能体不仅能“行动”，更能“反思”、“学习”与“持续改进”［173］。这一演进将 Agentic AI 定位为下一代 AI 基础设施：其能力不仅限于执行预定义工作流，更可自主构建、修订与管理跨智能体的复杂目标，且几乎无需人工干预。

AI Agents 与 Agentic AI 的应用

为阐明 AI Agents 与 Agentic AI 系统在现实世界中的实用价值及其操作层面的差异，本研究综合了近期文献中的一系列应用案例（如图9所示）。我们系统性地将这些应用领域划分为两条平行路径：传统AI Agent系统及其更先进的Agentic AI对应系统。对于AI Agents，本文回顾了四个主要用例：

(1) 客户服务自动化与企业内部搜索——单智能体模型处理结构化查询并生成响应；
(2) 邮件过滤与优先级排序——智能体通过分类启发式方法协助用户管理高流量通信；
(3) 个性化内容推荐与基础数据报告——分析用户行为以生成自动化洞察；
(4) 自主日程助手——解析日历信息并在极小用户输入下安排任务。

相比之下，Agentic AI 的应用场景涵盖更广泛、更具动态性的能力，同样被归纳为四类进行评述与讨论：
(1) 多智能体科研助手——协同检索、综合并起草科学内容；
(2) 智能机器人协调——包括农业与物流领域的无人机及多机器人系统；
(3) 协作式医疗决策支持——涉及诊断、治疗与监测子系统；
(4) 多智能体游戏AI与自适应工作流自动化——去中心化智能体进行策略性互动或处理复杂任务流水线。

4.0.1 AI Agents 的应用

客户服务自动化与企业内部搜索：AI Agents 在企业环境中被广泛用于自动化客户服务及促进内部知识检索。在客户服务场景中，这些智能体利用检索增强型大语言模型，对接API与组织知识库，以回答用户查询、分类工单，并执行诸如订单追踪或退货发起等操作［52］。在企业内部搜索方面，基于向量存储（如 Pinecone、Elasticsearch）构建的智能体可针对自然语言查询返回语义相关的文档。Salesforce Einstein、Intercom Fin 及 Notion AI 等工具展示了结构化输入处理与摘要生成能力如何降低工作负载并提升企业决策效率。

一个实际示例（图10a）展现了这一双重功能：某跨国电商公司部署了一套基于AI Agent的客户服务与内部搜索助手。在客户服务方面，该AI Agent集成公司的客户关系管理系统（CRM，如 Salesforce）与履约API，可解决诸如“我的订单在哪？”或“我该如何退货？”等问题。在毫秒级内，智能体从运输数据库与政策库中提取上下文数据，并借助检索增强生成技术输出个性化回复。在内部企业搜索方面，员工可通过同一系统查询过往会议纪要、销售演示文稿或法律文件。当HR经理输入“总结去年政策变更的关键福利”时，智能体查询嵌入企业文档的Pinecone向量库，按语义相似度对结果排序，并返回简洁摘要及来源链接。这些能力不仅减少了工单量与支持成本，也最大限度缩短了查找制度性知识（如政策、流程或手册）所耗费的时间。最终形成一套统一、响应迅速的系统，借助模块化AI Agent架构同时提升对外服务交付效率与对内运营效能。

邮件过滤与优先级排序：作为重要的生产力工具之一，AI Agents 通过内容分类与优先级划分实现邮件分拣自动化。它们与 Microsoft Outlook 和 Superhuman 等系统集成，分析元数据与邮件语义，检测紧急程度、提取待办事项并推荐回复。智能体应用用户定制的过滤规则、行为信号与意图分类，减轻认知负担。自动标签标注或对话线程摘要等自主行为提升效率，而内置反馈循环则通过渐进学习实现个性化［64］。

图10b 展示了AI Agent在邮件过滤与优先级排序领域的实际应用。在现代职场环境中，用户常被海量邮件淹没，导致认知过载与关键通讯遗漏。嵌入于 Microsoft Outlook 或 Superhuman 等平台的AI Agent扮演智能中介角色，对传入邮件进行分类、聚类与分拣。这些智能体评估发件人、主题行等元数据及语义内容，识别紧急程度、提取可执行项并建议智能回复。如图所示，AI Agent 自动将邮件归类为“紧急”、“需跟进”或“低优先级”等标签，同时提供情境感知摘要与回复草稿。通过持续反馈循环与使用模式学习，系统逐步适应用户偏好，优化分类阈值并提升优先级判断准确率。这种自动化机制卸载了决策疲劳，使用户能专注于高价值任务，同时在快节奏、信息密集的环境中维持高效沟通管理。

个性化内容推荐与基础数据报告：AI Agents 通过分析行为模式支持新闻、产品或媒体的自适应个性化推荐。Amazon、YouTube 和 Spotify 等平台部署此类智能体，借助协同过滤、意图检测与内容排序推断用户偏好。同时，分析系统中的AI Agents（如 Tableau Pulse、Power BI Copilot）支持自然语言数据查询与自动化报告生成，将提示转化为结构化数据库查询与可视化摘要，从而普及商业智能访问权限。

一个实际示例（图10c）展示了AI Agent在个性化内容推荐与基础数据报告中的应用，可见于电商与企业分析系统。考虑部署于 Amazon 等零售平台上的AI Agent：随着用户浏览、点击与购买商品，智能体持续监控交互模式（如停留时间、搜索词与购买序列），借助协同过滤与内容排序算法推断用户意图，并动态生成随时间演化的个性化商品推荐。例如，用户购买园艺工具后，可能被推荐兼容的土壤传感器或相关书籍。此层级的个性化显著提升用户参与度、转化率与长期留存率。与此同时，在企业场景中，集成于 Power BI Copilot 的AI Agent允许非技术人员通过自然语言请求洞察，例如“比较东北地区第三季度与第四季度的销售额”。智能体将提示翻译为结构化SQL查询，从数据库提取模式，并输出简洁的可视化摘要或叙述性报告。此应用降低了对数据分析师的依赖，通过直观、语言驱动的界面赋能更广泛的业务决策。

自主日程助手：集成于日历系统的AI Agent可自主管理会议协调、重新安排与冲突解决。x.ai 与 Reclaim AI 等工具可解析模糊的日程指令，访问日历API，并根据学习到的用户偏好识别最优时间段。它们最小化人工输入，同时适应动态可用性约束。其对接企业系统并响应模糊指令的能力，凸显了当代日程智能体的模块化自主性。

一个自主日程助手的实际应用见于企业环境（如图10d所示），员工需在全球不同时区管理多重重叠职责。设想一位集成 Google Calendar 与 Slack 的行政助理AI Agent，它可解析指令如“下周找一个45分钟时段与产品团队进行后续会议”。智能体解析请求，检查所有参与者的空闲时间，兼顾时区差异，并避免会议冲突或违反工作时间规定。若发现与已排定任务冲突，它可自主提议替代时段并通过Slack通知受影响参会者。此外，智能体从历史用户偏好中学习（如避免周五早间会议），并随时间不断优化建议。Reclaim AI 与 Clockwise 等工具进一步体现了此能力，提供具备日历感知能力的自动化方案，适应不断变化的工作负荷。此类助手降低协调成本，提升日程安排效率，并通过主动化解歧义与优化日历利用率，实现更顺畅的团队协作流程。

4.0.2 Agentic AI 的应用

多智能体科研助手：Agentic AI 系统正越来越多地部署于学术与工业研究流程中，以自动化多阶段知识整合。AutoGen 与 CrewAI 等平台在中央协调器（orchestrator）的管理下，为多个智能体分配专业化角色——如检索者、摘要生成者、综合者与引文格式化器。协调器负责分发任务、管理角色依赖关系，并将各智能体输出整合为连贯的草稿或综述摘要。持久记忆机制支持跨智能体的上下文共享与持续优化。这些系统被用于文献综述、基金申请准备及专利检索流程，其性能优于单智能体系统（如 ChatGPT），原因在于其支持并发子任务执行与长上下文管理［98］。

例如，图11a所示的一个真实应用场景是基金提案的自动化起草。设想一个大学研究团队正在准备国家科学基金会（NSF）的申报材料。采用基于 AutoGen 的架构，不同智能体被分配专门职责：一个智能体检索过往资助提案并提取结构模式；另一个智能体扫描最新文献以总结相关工作；第三个智能体将提案目标与NSF招标语言对齐；还有一个格式化智能体根据合规指南组织文档结构。协调器统筹这些智能体，解决依赖关系（例如使方法论与目标保持一致），并确保各部分风格统一。持久记忆模块存储不断演进的草案、合作者反馈与资助机构模板，从而实现多次会话中的迭代改进。相比传统人工流程，该多智能体系统显著加速了起草时间，提升了叙事连贯性，并确保符合监管要求，为学术界与研发密集型产业提供了一种可扩展、自适应的协作式科研写作方案。

智能机器人协同：在机器人与自动化领域，Agentic AI 赋能多机器人系统中的协作行为。每个机器人作为特定任务的智能体运行（如采摘器、运输器或测绘器），而协调器则监督并调整工作流。此类架构依赖共享空间记忆、实时传感器融合与智能体间同步，以实现协调的物理行动。应用场景包括仓库自动化、基于无人机的果园巡检以及机器人采收［155］。

例如，在商业苹果园中（图11b），Agentic AI 支持一套协调的多机器人系统以优化水果采收。在此场景中，任务专精型机器人——如自主采摘机器人、水果分类机器人、运输机器人与无人机测绘机器人——均作为智能单元在中央协调器下运作。测绘无人机首先巡视果园，利用视觉-语言模型（VLMs）生成高分辨率产量地图并识别成熟果簇。该空间数据通过所有智能体均可访问的集中式记忆层共享。随后，采摘机器人被指派至高密度区域，由路径规划智能体引导其绕开障碍物与劳动区域。同时，运输机器人动态搬运水果容器或箱体，往返于采摘机器人与储存区之间，根据采摘负载水平与地形变化动态调整任务。所有智能体通过共享协议异步通信，协调器则持续根据天气预报或机械故障调整任务优先级。若某一采摘机器人失效，邻近单元可自动重新分配工作负载。这种自适应、记忆驱动的协调机制彰显了 Agentic AI 在降低人力成本、提高采收效率、应对复杂农业环境不确定性方面的潜力，远超传统刚性编程农业机器人的能力［98, 155］。

协作式医疗决策支持：在高风险临床环境中，Agentic AI 通过将诊断、生命体征监测与治疗规划等任务分配给专业智能体，实现分布式医学推理。例如，一个智能体可检索患者病史，另一个智能体依据诊疗指南验证检查结果，第三个智能体则提出治疗方案（如中国首家Agentic AI医院所展示的案例［174］）。这些智能体通过共享记忆与推理链实现同步，确保建议的一致性与安全性。应用场景包括ICU管理、放射科分诊与疫情响应（参见表10）。尽管因该领域尚处发展初期，现实部署仍显不足，但已有研究支持Agentic AI变革医疗保健领域的巨大潜力［175］。

例如，在医院重症监护室（ICU）（图11c）中，一个Agentic AI系统辅助临床医生管理复杂患者病例。诊断智能体持续分析生命体征与实验室数据，以早期发现脓毒症风险。同时，历史数据检索智能体访问电子健康记录（EHRs），总结合并症与近期治疗情况。治疗规划智能体则交叉比对当前症状与临床指南（如“拯救脓毒症运动”），提出抗生素方案或液体治疗策略。协调器整合这些洞察，确保一致性并呈现冲突点供人工复核。医生反馈被存储于持久记忆模块，使智能体能够基于先前干预措施与结果优化自身推理。该协同系统通过减轻认知负荷、缩短决策时间与最小化疏漏风险，提升临床工作流效率。在重症监护与肿瘤科室的早期部署已证明其可增强诊断精准度并提高循证协议依从性，为更安全、实时的协作式医疗支持提供了可扩展解决方案。

多智能体游戏AI与自适应工作流自动化：在模拟环境与企业系统中，Agentic AI 系统促进去中心化的任务执行与高效协调。游戏平台如 AI Dungeon 部署具备目标、记忆与动态互动能力的独立NPC智能体，以创造涌现式叙事与社会行为。在企业工作流中，MultiOn 与 Cognosys 等系统使用智能体管理法律审查或事件升级等流程，其中每一步均由专用模块控制。此类架构展现出超越规则驱动流水线的韧性、异常处理能力与反馈驱动适应性［176］。

例如，在现代企业IT环境中（如图11d所示），Agentic AI 系统正越来越多地被用于自主管理网络安全事件响应工作流。当检测到潜在威胁（如异常访问模式或未经授权的数据外泄）时，多个专业智能体并行激活。一个智能体利用历史违规数据与异常检测模型进行实时威胁分类；第二个智能体查询网络节点的相关日志数据，并关联跨系统模式；第三个智能体解读合规框架（如GDPR或HIPAA），评估事件的监管严重性；第四个智能体模拟缓解策略并预测运营风险。这些智能体在中央协调器下协同工作，协调器评估集体输出、整合时序推理，并向人类分析师发出推荐行动。通过共享记忆结构与迭代反馈，系统从以往事件中学习，使未来响应更快、更准确。相比传统基于规则的安全系统，该智能体模型降低了决策延迟、减少了误报率，并支持在大规模组织基础设施中实施主动式威胁遏制［98］（参见表10与表11）。

5 AI智能体与代理式AI的挑战与局限性

为了系统性地理解当前智能系统在理论和操作层面的局限性（如表11所述），我们在图12中提供了一个比较性的视觉综合分析，该图将AI智能体与代理式AI范式下的挑战及潜在解决方案进行了分类。图12a概述了AI智能体特有的四大最紧迫限制：缺乏因果推理能力、继承自大语言模型（LLM）的约束（例如幻觉、浅层推理）、代理属性不完整（如自主性、主动性），以及在长时程规划与恢复能力上的失败。这些挑战通常源于它们对无状态LLM提示的依赖、有限的记忆能力以及启发式推理循环。

同样地，图12b识别出代理式AI系统特有的八大关键瓶颈，例如多智能体间的错误级联、协调崩溃、涌现性不稳定、可扩展性限制以及可解释性问题。这些问题源于在没有标准化架构、稳健通信协议或因果对齐框架的情况下，协调多个智能体执行分布式任务所面临的复杂性。

图13通过综合十项前瞻性设计策略，补充了这一诊断框架，旨在缓解上述局限性。这些策略包括检索增强生成（RAG）、基于工具的推理[130,131,133]、代理式反馈循环（ReAct[136]）、基于角色的多智能体编排、记忆架构、因果建模以及具备治理意识的设计。这些机制共同构成了一条整合路线图，用以解决当前缺陷，并加速安全、可扩展且情境感知的自主系统的开发。

5.0.1 AI智能体的挑战与局限性

尽管AI智能体因其利用LLM和特定工具接口自动化结构化任务的能力而备受关注，但文献指出其存在显著的理论与实践局限性，阻碍了其可靠性、泛化能力和长期自主性[136,162]。这些挑战既源于其架构上对静态预训练模型的依赖，也源于难以赋予其因果推理、规划和稳健适应等代理特性。AI智能体的关键挑战与局限性（见图12a）总结如下：

缺乏因果理解：最基础的挑战之一在于智能体无法进行因果推理[180,181]。虽然构成大多数AI智能体认知核心的LLM在检测训练数据中的统计相关性方面非常有效，但它们并不能真正理解因果关系。正如DeepMind的最新研究和TrueTheta的概念分析[182–184]所强调的，这些模型往往无法区分单纯的关联与真实的因果关系。例如，一个由LLM驱动的智能体可能观察到医院就诊常伴随疾病发生，但它无法判断是疾病导致了就诊，还是就诊导致了疾病。更关键的是，这类智能体无法进行反事实推理——即想象如果采取某种干预或改变会发生什么。这种因果建模的缺失限制了它们做出明智决策、评估假设行动影响或在现实场景中提供可靠建议的能力，因为在这些场景中理解“为什么”事情会发生至关重要。

尽管出现了注重推理的LLM，例如采用思维链（CoT）方法逐步推理问题的DeepSeek R1，但这些模型并非数学上可靠的推理器（例如像OWL推理器那样）。它们产生的思维链在语言上具有说服力，但并不一定在逻辑上有效。从这个意义上说，它们不能取代专门设计用于处理逻辑一致性、本体严谨性和概率因果性的形式推理系统，如Pellet、贝叶斯网络或因果推断框架，后者在可靠性方面要高得多。

当面对分布偏移时，这一局限性尤其具有挑战性，即现实世界条件与训练环境不同[185,186]。如果没有这种基础，智能体就会变得脆弱，在新颖或高风险场景中失败。例如，一个在城市驾驶环境中表现出色的导航智能体，如果缺乏关于道路附着力或空间遮挡的内部因果模型，就可能在雪地或施工区域表现异常。

继承自LLM的固有局限性：AI智能体，尤其是那些由LLM驱动的智能体，继承了许多内在限制，影响了其在实际部署中的可靠性、适应性和整体可信度[187–189]。最关键的问题之一是产生“幻觉”的倾向，即输出看似合理但事实错误的内容。在法律咨询或科学研究等高风险领域，这些幻觉可能导致严重误判并侵蚀用户信任[190,191]。此外，LLM对提示的敏感性众所周知，即使措辞的微小变化也可能导致行为差异。这种脆弱性阻碍了可重复性，需要精心的手动提示工程，且常常需要针对特定领域进行调优，以保持交互的一致性[192]。

此外，尽管最近的智能体框架采用了诸如思维链（CoT）[163,193]和ReAct[136]等推理启发式方法来模拟深思熟虑的过程，但这些方法在语义理解上仍然肤浅。智能体仍可能在多步骤推理中失败、误解任务目标，或得出逻辑上不一致的结论，尽管表面上看起来推理过程结构良好[136]。这些不足突显了真实理解与可泛化规划能力的缺失。

另一个关键限制在于计算成本和延迟。每个智能体决策周期——特别是在规划或调用工具时——可能需要多次调用LLM。这些迭代不仅增加了运行时延迟，还扩大了资源消耗，给现实部署和基于云的推理系统带来了实际瓶颈。此外，LLM的知识截止日期是静态的，除非通过检索或工具插件明确增强，否则无法动态整合新信息。它们还会再现训练数据集中的偏见，这可能导致文化不敏感或有偏颇的回答[194,195]。如果没有严格的审计和缓解策略，这些问题在敏感场景下或直接与终端用户交互时会带来严重的伦理和操作风险（参见表11）。

代理属性不完整：当前AI智能体的一个主要局限性在于它们无法完全满足基础文献中定义的经典代理属性，如自主性、主动性、反应性和社交能力[146,189]。虽然许多被宣传为“智能体”的系统利用LLM执行有用的任务，但在实践中它们往往未能达到这些基本特征。例如，自主性通常只是部分实现。尽管智能体一旦初始化后可以在最少监督下执行任务，但它们仍严重依赖外部支撑，如人为定义的提示、规划启发式或反馈循环才能有效运作[196]。自我发起任务生成、自我监控或自主纠错能力罕见或缺失，限制了其真正的独立性。

主动性同样发展不足。大多数AI智能体需要明确的用户指令才能行动，缺乏根据不断变化的情境/环境或演进的目标动态制定或重新优先排序目标的能力[197]。因此，它们的行为是反应式的而非战略性的，受限于其初始化的静态性质。反应性本身也受架构瓶颈制约。智能体确实会对环境或用户输入作出响应，但由于反复调用LLM推理[198,199]以及狭窄的上下文记忆窗口[165,200]，实时适应能力受到抑制。

除了主动性，社交能力仍是AI智能体最未被充分探索的能力之一。现实世界的AI智能体和代理式AI系统应能与人类或其他智能体进行长时间互动，解决歧义、协商任务并适应社会规范。然而，现有实现表现出僵硬的模板式对话，缺乏长期记忆整合或细致的对话上下文。智能体之间的互动通常是硬编码的或仅限于脚本化交流，阻碍了协作执行和涌现行为[105,201]。总体而言，这些缺陷表明，尽管AI智能体表现出功能性智能，但它们远未达到智能[202]、交互式和自适应代理的形式基准。弥合这一差距对于向更自主、更具社交能力的AI系统迈进至关重要。

长时程规划与恢复能力有限：当前AI智能体持续存在的一个局限性在于其无法在复杂多阶段任务中进行稳健的长时程规划。这一限制源于其根本上依赖于无状态的提示-响应范式，其中每个决策都是在没有内在记忆先前推理步骤的情况下做出的，除非由外部管理。尽管像ReAct框架[136]或思维树[164]等增强功能引入了伪递归推理，但它们本质上仍是启发式的，缺乏对时间、因果或状态演变的真实内部模型。因此，智能体在需要延长时间一致性或应急规划的任务中经常失败。例如，在临床分诊或投资组合管理等领域，决策依赖于先前背景和动态变化的结果，智能体可能表现出重复行为，如不断查询工具，或在子任务失败或返回模糊结果时无法适应。缺乏系统性的恢复机制或错误检测会导致工作流程脆弱和错误传播。这一缺陷严重限制了智能体在任务关键环境中部署，因为在这些环境中可靠性、容错性和顺序连贯性至关重要。
可靠性与安全性问题：AI智能体目前尚未足够安全或可验证，无法用于处理或管理关键基础设施[203]。缺乏因果推理导致在分布偏移下行为不可预测[181,204]。此外，评估智能体计划的正确性——特别是当智能体捏造中间步骤或理由时——仍然是可解释性领域尚未解决的问题[114,205]。安全保证，如形式验证，目前尚不可用于开放式的、由LLM驱动的智能体。虽然AI智能体代表了超越静态生成模型的重大进步，但其在因果推理、适应性、鲁棒性和规划方面的局限性限制了其在高风险或动态环境中的部署。目前大多数系统依赖启发式包装器和脆弱的提示工程，而非扎根的代理认知。弥合这一差距将要求未来的系统整合因果模型、动态记忆和可验证的推理机制。这些局限性也为代理式AI系统的出现奠定了基础，后者试图通过多智能体协作、编排层和持久的系统级上下文来解决这些瓶颈。持久的系统级上下文确保智能体在共享且不断演化的对目标、环境和先前决策的理解下运作，从而实现复杂工作流中连贯协调和持续自主性[206,207]。这种连续性对于减少冗余处理和实现长时程推理至关重要。

5.0.2 代理式AI的挑战与局限性

代理式AI系统代表了从孤立的AI智能体向能够分解并执行复杂目标的协作型多智能体生态系统的范式转变[22]。这些系统通常由经过编排或相互通信的智能体组成，它们通过工具、API和共享环境进行交互[26,44]。尽管这种架构演进实现了更宏大的自动化目标，但它也引入了一系列被放大且新颖的挑战，加剧了单个基于LLM的智能体已有的局限性。当前代理式AI系统面临的挑战与局限性如下：

被放大的因果性挑战：代理式AI系统中最关键的局限之一是，单智能体架构中已观察到的缺乏因果推理能力在多智能体环境中被进一步放大。与在相对隔离环境中运行的传统AI智能体不同，代理式AI系统涉及复杂的智能体间动态与协作，其中每个智能体的行为都可能影响其他智能体的决策空间。如果没有强大的因果关系建模能力，这些系统将难以有效协调并对不可预见的环境变化做出适应。

这一局限性导致的一个关键问题是“智能体间的分布偏移”，即一个智能体的行为改变了其他智能体的操作上下文。在缺乏因果推理的情况下，智能体无法预测其输出对下游的影响，从而导致协调崩溃或冗余计算[208]。此外，这些系统特别容易受到错误级联的影响：一个智能体产生的错误或幻觉输出可能在整个系统中传播，叠加不准确性并破坏后续决策。例如，如果一个验证智能体错误地确认了虚假信息，下游的摘要智能体或决策智能体可能会在不知情的情况下基于该错误信息进行操作，从而损害整个系统的完整性。这种脆弱性凸显了迫切需要将因果推断与干预建模整合进多智能体工作流的设计中，尤其是在高风险或动态环境中，系统鲁棒性至关重要。

通信与协调瓶颈：代理式AI面临的一个根本性挑战是在多个自主智能体之间实现高效通信与协调。与单智能体系统不同，代理式AI系统涉及分布式智能体，它们必须协同追求共同目标，这要求精确对齐、同步执行以及稳健的通信协议。然而，当前的实现方案在这些方面表现不足。一个主要问题是目标对齐与共享上下文，智能体常常缺乏对总体目标统一的语义理解。这种共享语义基础的缺失阻碍了子任务分解、依赖管理与进度监控，尤其在需要因果感知和时间连贯性的动态环境中。

此外，协议限制严重阻碍了智能体间的通信。大多数系统依赖于在松散定义接口上进行的自然语言交流，这种方式容易产生歧义、格式不一致和上下文漂移。这些沟通鸿沟导致策略碎片化、协调延迟和系统性能下降。此外，当智能体同时访问共享的计算、内存或API资源时，资源竞争成为系统性瓶颈。如果没有集中式编排或智能调度机制，这些冲突可能导致竞态条件、执行延迟甚至系统完全失效。总体而言，这些瓶颈揭示了当前代理式AI协调框架的不成熟，并突显了迫切需要标准化通信协议、语义任务规划器和全局资源管理器，以确保可扩展、连贯的多智能体协作。

涌现行为与可预测性：代理式AI最关键的局限之一在于管理由自主智能体互动所引发的复杂系统层面现象的涌现行为。虽然这种涌现行为可能带来适应性和创新性解决方案，但也引入了显著的不可预测性和安全风险[157,209]。一个关键担忧是产生非预期结果——智能体互动导致的行为并非系统设计者明确编程或预见到的。这些行为可能偏离任务目标、生成误导性输出，甚至在医疗、金融或关键基础设施等高风险领域引发有害行为。

随着智能体数量及其互动复杂度的增长，系统不稳定的可能性也随之增加。这包括无限规划循环、行动死锁以及由异步或不对齐的智能体决策引发的矛盾行为等现象。如果没有集中仲裁机制、冲突解决协议或回退策略，这些不稳定性会随时间累积，使系统变得脆弱且不可靠。基于LLM的智能体固有的随机性和缺乏透明度进一步加剧了这一问题，因为其内部决策逻辑不易解释或验证[210,211]。因此，确保涌现行为的可预测性和可控性仍是设计安全、可扩展代理式AI系统的核心挑战。

可扩展性与调试复杂性：随着代理式AI系统在智能体数量和专业化角色多样性上的扩展，维持系统可靠性与可解释性变得越来越复杂[212,213]。这一局限源于基于LLM的智能体特有的“黑箱”推理链条。每个智能体可能通过不透明的内部逻辑处理输入、调用外部工具并与其它智能体通信——所有这些过程都发生在多层提示工程、推理启发式和动态上下文处理之中。因此，追溯故障的根本原因需要解开嵌套的智能体互动序列、工具调用和记忆更新，使得调试变得非同寻常且耗时。

另一个重要约束是系统的“非组合性”。与传统模块化系统不同（添加组件可增强整体功能），在代理式AI架构中引入额外智能体往往增加认知负荷、噪音和协调开销。设计不当的智能体网络——协调、任务委派和通信协议未充分设计——可能导致冗余计算、矛盾决策或任务性能下降。没有稳健的智能体角色定义框架、通信标准和分层规划机制，代理式AI的扩展并不必然转化为更高的智能或更强的鲁棒性。这些局限性凸显了对系统性架构控制和可追溯性工具的需求，以支持可靠、大规模代理生态系统的开发。

信任、可解释性与可验证性：由于其分布式、多智能体架构，代理式AI系统在可解释性和可验证性方面面临巨大挑战。虽然解释单个由LLM驱动的智能体行为本身已非易事，但当多个智能体通过松散定义的通信协议异步互动时，这种复杂性呈倍数增长。每个智能体可能拥有自己的记忆、任务目标和推理路径，导致复合性不透明——追溯最终决策或失败的因果链变得极其困难。缺乏跨智能体共享、透明的日志或可解释的推理路径，使得确定特定行为序列发生的原因或识别哪个智能体引发了失误变得极为困难，甚至不可能。

这种不透明性因缺乏针对代理式AI的正式验证工具而加剧。与传统软件系统不同（模型检查和形式证明可提供有界保证），目前尚无广泛采用的方法来验证由多个大型语言模型智能体协作完成任务的多智能体LLM系统，在所有输入分布或操作情境下是否都能可靠运行。这种可验证性的缺失构成了在自动驾驶汽车、金融和医疗等安全关键领域采用代理式AI的重大障碍，因为在这些领域，可解释性和保障至关重要。为了安全推进代理式AI的发展，未来研究必须解决因果可追溯性、智能体问责制和形式安全保证方面的根本性差距。

安全性与对抗性风险：与单智能体系统相比，代理式AI架构引入了显著扩大的攻击面，使其暴露于复杂的对抗性威胁之下。最严重的漏洞之一在于存在单一妥协点。由于代理式AI系统由通过共享内存或消息协议相互通信的相互依赖智能体组成，即使只有一个智能体通过提示注入、模型投毒或对抗性工具操纵被攻陷，恶意输出或损坏状态也可能在整个系统中传播。例如，一个被篡改数据喂养的事实核查智能体可能会无意中合法化虚假主张，这些主张随后被摘要或决策智能体整合进下游推理中。

此外，智能体间的动态本身也容易被利用。攻击者可通过操纵智能体间的协调逻辑诱导竞态条件、死锁或资源耗尽。如果没有严格的认证、访问控制和沙箱机制，恶意智能体或被污染的工具响应可能破坏多智能体工作流，或在任务管道中引发错误升级。这些风险因缺乏针对基于LLM的多智能体系统的标准化安全框架而加剧，导致当前大多数实现对复杂的多阶段攻击毫无防御能力。随着代理式AI走向更广泛的应用，特别是在高风险环境中，嵌入“设计即安全”的原则和对抗鲁棒性已成为紧迫的研究优先事项。

伦理与治理挑战：代理式AI系统的分布式和自主特性带来了巨大的伦理与治理关切，尤其是在问责制、公平性和价值对齐方面。在多智能体场景中，当多个智能体互动产生结果时，责任归属的空白便会出现，使得为错误或意外后果分配责任变得困难。这种模糊性使法律追责、监管合规和用户信任复杂化，尤其在自动驾驶汽车、科学研究或关键基础设施管理等高风险领域。此外，偏见的传播与放大构成独特挑战：各自在有偏数据上训练的智能体可能通过互动强化彼此的偏颇决策，导致比孤立模型更明显的系统性不公。这些涌现的偏见可能很微妙，若无持续的时间监测或稳健的审计机制则难以发现。

此外，在长时程或动态环境中，错位与价值漂移构成严重风险。如果没有统一的价值编码框架，各个智能体可能对总体目标有不同的解读，或优化本地目标而非人类意图。随着时间推移，这种错位可能导致行为与伦理规范或用户期望不一致。当前主要为单智能体系统设计的对齐方法，在管理异构智能体群体中的价值同步方面显得不足。这些挑战凸显了迫切需要具备治理意识的智能体架构，融入角色隔离、可追溯决策日志和参与式监督机制等原则，以确保自主多智能体系统的伦理完整性。

不成熟的理论基础与研究空白：尽管取得了快速进展并进行了高调演示，代理式AI的研究与开发仍处于早期阶段，存在尚未解决的问题，限制了其可扩展性、可靠性与理论基础。一个核心关切是缺乏标准架构。目前尚无广泛接受的设计、监控或评估基于LLM构建的多智能体系统的蓝图。这种架构碎片化使得比较不同实现、复现实验或在不同领域推广成果变得困难。智能体编排（即智能体间结构化协调与基于角色的任务分配）、记忆结构和通信协议等关键方面常以临时方式实现，导致系统脆弱、缺乏互操作性、一致性及形式化的可靠性保证。

同样关键的是缺乏因果基础，因为当前AI系统中可扩展的因果发现与推理仍是未解难题[214]。因果发现是指从数据中识别潜在因果关系的过程，这对于理解不同变量如何相互影响至关重要。如果没有能力表示和推理这些因果联系，代理式AI系统在安全泛化至狭窄预设训练场景之外的能力上受到固有制约[186,215]。这一局限性削弱了其在面对分布偏移时的鲁棒性，降低了其采取主动行动的有效性，并损害了其模拟替代结果或假设计划的能力——这些能力对于智能协调、自适应规划和高风险决策至关重要。

因此，功能性演示与原则性设计之间的差距强调了迫切需要在多智能体系统理论、因果推断整合和基准测试开发方面开展基础性研究。只有解决这些缺陷，该领域才能从原型管道发展为适用于高风险环境部署的可信、通用代理框架。

5.1 平衡性批判与领域普遍局限

尽管AI智能体与代理式AI系统展现出巨大前景，但该领域也面临显著的局限性和尚未解决的批评，值得审慎关注。一个核心关切是对大语言模型（LLM）的过度依赖——尽管LLM具备强大的生成能力，但它们仍易产生幻觉、缺乏稳健的因果推理能力，并在长时程规划方面表现困难。这些局限性在代理式AI系统中被进一步放大：涌现行为、协调复杂性以及不透明的推理链条可能导致不可预测或无法解释的输出。

此外，当前的编排协议往往缺乏标准化，使得智能体在不同平台间的互操作性与可复现性变得困难。从伦理角度看，持续的自主性与记忆保留引发了关于监控、知情同意和系统问责制的担忧。批评者还指出，许多针对代理式系统的基准评估依赖于人工环境，未能反映现实世界部署的复杂性，尤其是在医疗或金融等高风险领域。此外，代理式AI框架的开发常常强调架构新颖性，而非严谨的实证验证。

这些挑战凸显了不仅需要技术创新，还需要批判性反思、透明的评估指标和治理机制。一份平衡的发展路线图必须回应这些批评，以确保代理式系统在功能鲁棒性与伦理完整性两方面同步演进。

潜在解决方案与未来路线图

6.1 潜在解决方案

为应对前一节所讨论的AI智能体与代理式AI系统的挑战与局限，我们识别出一组有前景的解决方案路径（如图13所示），包括检索增强生成（RAG）、工具增强推理、记忆架构、因果建模、反思机制、编排框架以及具备治理意识的设计。这些技术共同代表了当前努力克服AI智能体和代理式AI所面临的脆弱性、可扩展性瓶颈及协调挑战的前沿方向。目前，大多数已部署系统严重依赖启发式包装器、手动提示工程和浅层协调逻辑，未能达到稳健的自主性与可靠性。在接下来的几段中，我们将探讨每种解决方案如何针对特定的技术或系统性局限，指出当前实现中的差距，并提出未来研究方向，以推动这些解决方案演变为下一代智能系统中成熟、可互操作的组成部分。这一路线图对于从临时性的智能体部署过渡到原则性强、可泛化、能够支撑可扩展、安全且情境感知的代理生态系统至关重要。

RAG（检索增强生成）：对于AI智能体而言，RAG有望缓解幻觉问题，并通过将输出锚定于实时数据来扩展静态LLM的知识[216]。通过嵌入用户查询并从FAISS Source Link或Pinecone等向量数据库中检索语义相关的文档，智能体能够基于外部事实生成情境有效的响应。这种基于检索的锚定机制在企业搜索和客户支持等领域尤为有效，因为在这些领域，准确性与获取最新知识对可靠的任务执行和用户信任至关重要。

在代理式AI系统中，RAG作为跨智能体共享的锚定机制发挥作用。例如，摘要智能体可能依赖检索智能体访问最新的科学论文后再生成综合内容。持久且可查询的记忆使分布式智能体能够在统一的语义层上运作，避免或最小化因上下文视角分歧导致的不一致。当在整个多智能体系统中实施时，RAG有助于保持共享的准确性、增强目标对齐，并减少智能体间错误信息的传播。

工具增强推理（函数调用）：AI智能体从函数调用中获益显著，这扩展了其与现实世界系统交互的能力[171,217]。智能体可以查询API、运行本地脚本或访问结构化数据库，从而将LLM从静态预测器转变为交互式问题解决者[135,166]。这种工具增强推理能力使智能体能够动态访问和处理实时、不断变化的信息，如天气预报、股票价格或用户日历更新，并执行诸如安排会议、发送电子邮件或在Python中执行复杂计算等可执行操作。通过将自然语言推理与外部工具交互相结合，该功能赋予智能体超越静态语言生成的能力，使其成为现实环境中自主的、以任务为导向的决策者。

对于代理式AI系统而言，函数调用在增强多个智能体间的自主性与结构化协调方面至关重要。每个智能体被分配系统内的专业角色——如数据检索器、可视化器或决策者——可独立调用特定领域的API以执行针对性任务，例如访问临床记录或生成分析仪表板。这些函数调用并非孤立存在；相反，它们嵌入在一个经过编排的管道中——即一个定义明确、多步骤的工作流，其中一个智能体的输出无缝地作为下一个智能体的输入[218]。这种编排促进了动态委派，智能体可根据预定义的角色和能力无歧义、无冗余地移交子任务[22,26]。

此外，在此类编排管道内整合函数调用，可在智能体之间建立更清晰的行为边界。每个智能体在其定义的责任范围内运作，降低了重叠行动或冲突决策的可能性。当结合验证协议（例如Waitgpt[219]中的响应验证或模式检查）和观察机制（例如反馈循环或审计日志[220,221]）时，这些边界得到强化，确保每个智能体不仅完成指定任务，而且以透明和可问责的方式完成。这种结构化的交互模型增强了系统的鲁棒性、可追溯性，最终提升了代理式AI在复杂高风险领域的可靠性。

代理循环：推理、行动、观察：AI智能体常受困于单次推理的局限[222]。ReAct模式引入了一个迭代循环，其中智能体推理任务、通过调用工具或API采取行动，然后观察结果再继续[136]。这种反馈循环允许进行更审慎、更具情境敏感性的行为。例如，智能体可以在起草摘要前验证检索到的数据，从而减少幻觉和逻辑错误。在代理式AI中，此模式对协作一致性至关重要。ReAct使智能体能够动态评估依赖关系——推理中间状态，根据需要重新调用工具，并随着环境演变调整决策[136]。在多智能体设置中，此循环变得更加复杂，因为每个智能体的观察结果必须与其他智能体的输出相协调。此处共享记忆和一致的日志记录至关重要，确保系统的反思能力不会在不同智能体间碎片化。
记忆架构（情节记忆、语义记忆、向量记忆）：如前所述，AI智能体在长时程规划和会话连续性方面面临局限。记忆架构通过在任务间持久化信息来解决这一问题[223]。情节记忆使智能体能够回忆先前的行动和反馈，语义记忆编码结构化的领域知识，而向量记忆则支持基于相似性的检索[224]。这些要素对于在重复交互中实现个性化和自适应决策至关重要。代理式AI系统由于涉及分布式状态管理，需要更复杂的记忆模型。每个智能体可能维护本地记忆，同时访问共享的全局记忆以促进协调。例如，规划智能体可能使用基于向量的记忆回忆先前的工作流，而问答智能体则参考语义记忆进行事实验证。跨智能体同步记忆访问和更新可增强一致性，支持情境感知通信，并促进长时程的系统级规划。
具备角色专精的多智能体编排：在传统AI智能体系统中，任务复杂度的增加通常通过模块化提示工程或条件分支逻辑来应对。然而，随着任务范围和复杂性的增长，单一智能体可能不堪重负，导致性能下降或无法有效泛化[225,226]。为缓解此问题，角色专精——将整体任务划分为离散的功能单元，如规划、摘要或验证——即使在单智能体框架内也能实现一种“分隔式推理”。在此背景下，“分隔式推理”指通过提示使单个智能体按顺序推理子任务，模拟多个专家角色的认知功能。

相比之下，代理式AI系统将编排制度化为核心架构特征。此处的“编排”指在一组专业化智能体团队中进行动态协调与任务委派，每个智能体设计用于处理整体工作流中的特定子功能。这通常由元智能体或编排器——一个负责分配任务、管理依赖关系并在所有智能体间维持全局上下文的监督智能体——控制。MetaGPT和ChatDev等系统正是这一范式的体现：智能体采用预定义的专业角色，如首席执行官、软件工程师或评审员，并通过结构化消息协议沟通，协作完成复杂项目。这种经过编排、角色专精的设计通过将推理轨迹隔离在明确定义的智能体角色内，提高了系统的可解释性。它还改善了可扩展性，因为任务可以在智能体间并行化，并有助于容错性，因为编排器可监控并遏制来自单个智能体的错误，防止系统性故障。这种模块化、协调的架构是构建稳健且透明的代理式AI系统的基础。

反思与自我批判机制：AI智能体常常静默失败或传播错误。反思机制引入了自我评估的能力[227,228]。完成任务后，智能体可通过二次推理过程批判自身输出，提高鲁棒性并降低错误率。例如，法律助理智能体在提交前可验证其草拟条款是否符合先例法。对于代理式AI而言，反思机制超越了自我批判，延伸至智能体间的相互评估。智能体可审查彼此的输出——例如，验证智能体审核摘要智能体的工作。类似Reflexion的机制确保了协作质量控制并增强了可信度[229]。此类模式还支持迭代改进与自适应重规划，尤其当与记忆日志或反馈队列集成时[230,231]。
程序化提示工程管道：手动提示调优引入了脆弱性并降低了AI智能体的可复现性。程序化管道利用任务模板、上下文填充器和检索增强变量自动化这一过程[232,233]。这些动态提示根据任务类型、智能体角色或用户查询进行结构化，提高了泛化能力，并减少了与提示变异性相关的故障模式。在代理式AI中，提示管道实现了可扩展、角色一致的通信。每种智能体类型（如规划者、检索者、摘要者）均可生成或消费与其功能定制的结构化提示。通过自动化消息格式化、依赖跟踪和语义对齐，程序化提示可防止协调漂移，并确保在实时环境中不同智能体间推理的一致性[22,171]。

因果建模与基于模拟的规划：AI智能体通常基于统计相关性而非因果模型运作，导致在分布偏移下泛化能力差。嵌入因果推断可使智能体区分相关性与因果关系、模拟干预措施，并规划出基于反事实信息、以目标为导向的行动，这些行动能预见长期影响并适应变化的环境。例如，在供应链场景中，具备因果意识的智能体可以模拟运输延迟对下游的影响。在代理式AI中，因果推理对于安全协调与错误恢复至关重要。智能体必须预判自身行为如何影响他人，这需要因果图、模拟环境或贝叶斯推理层的支持。例如，一个规划智能体可模拟不同策略，并向其他智能体传达可能的结果，从而促进战略对齐并避免意外涌现的行为。为强制协作行为，智能体可通过结构化规划方法（如STRIPS或PDDL——规划领域定义语言）进行管理，其中环境被建模为具有明确定义的动作、前置条件和效果。智能体间的依赖关系被编码，使得一个智能体的动作能促成另一个智能体的动作，而集中式或分布式规划器则确保所有智能体共同贡献于一个共享目标。这一统一框架支持战略对齐、前瞻性规划，并最大限度地减少多智能体系统中的意外涌现行为。
监控、审计与可解释性管道：AI智能体缺乏透明度，使调试和建立信任变得复杂。记录提示、工具调用、记忆更新和输出的日志系统，可实现事后分析和性能调优。这些记录有助于开发者追踪故障、优化行为，并确保符合使用准则——这在企业或法律领域尤为重要。对于代理式AI系统而言，日志记录与可解释性更为关键。多个智能体异步交互时，审计追踪对于识别哪个智能体在何种条件下引发了错误至关重要。跨智能体集成的可解释性管道（例如时间线可视化或对话回放）是确保安全的关键，尤其是在监管或多方利益相关者环境中。
具备治理意识的架构（问责制与角色隔离）：当前的AI智能体缺乏内置的伦理合规或错误归因保障机制。具备治理意识的设计引入了基于角色的访问控制、沙箱机制和身份解析，以确保智能体在其职责范围内行动，其决策可被审计或撤销。这些结构减少了医疗或金融等敏感应用中的风险（更多应用请参见表10）。在代理式AI中，治理必须跨越角色、智能体和工作流进行扩展。角色隔离可防止越权的“流氓”智能体，而问责机制则分配决策责任并在智能体间追溯因果关系。合规协议、伦理对齐检查和智能体认证确保了协作环境中的安全性，为可信赖的AI生态系统铺平道路。

6.2 未来路线图

AI智能体预计将在增强的模块化智能基础上实现显著演进，重点聚焦于五个关键领域（如图14所示）：主动推理、工具集成、因果推断、持续学习和以信任为中心的操作。第一个变革性里程碑是实现从被动响应到“主动智能”的转变——智能体将基于学习到的模式、上下文线索或潜在目标自主发起任务，而非等待明确指令。这一进展高度依赖于稳健的“工具集成”，使智能体能够动态与外部系统（如数据库、API或模拟环境）交互，以完成复杂的用户任务。同样关键的是“因果推理”的发展，这将使智能体超越统计相关性，支持对因果关系的推断——这对于涉及诊断、规划或预测的任务至关重要。为保持长期相关性，智能体必须采用“持续学习”框架，通过反馈循环和情节记忆适应不同会话和环境中的行为。最后，为建立用户信心，智能体必须优先考虑“信任与安全”机制，包括可验证的输出日志、偏见检测和伦理约束——尤其在它们的自主性不断增强时。这些路径共同将AI智能体从静态工具重新定义为能够在动态数字环境中自主运行且可控的自适应认知系统。

代理式AI作为基础AI智能体框架的自然延伸，强调通过多智能体协调、上下文持久性和领域特定编排实现协作智能。未来的系统（图14右侧）预计将展现“多智能体扩展能力”，使专业化的智能体能在分布式控制下并行运作，解决复杂、高维度的问题，模仿人类团队典型的协作工作流。这种扩展需要一层“统一编排”，即由专门的元智能体（编排器）承担动态分配角色、管理智能体间通信、安排任务依赖顺序及解决潜在冲突的责任。在此语境下，“编排”指智能协调与调节多个自主智能体间的互动，以确保连贯高效的集体行为。长期性能的维持将依赖于稳健的“持久记忆架构”，允许智能体存储和检索语义、情节及共享的任务相关知识，支持纵向操作的连续性，并使智能体能持续感知不断演变的目标和环境状态。“模拟规划”将成为核心能力，赋予智能体群体建模假设性决策轨迹、预测后果并通过内部试错机制优化行动方案的能力，从而降低现实世界风险并提升自适应鲁棒性。

此外，建立“伦理治理框架”至关重要，以确保智能体群体在一致的道德和法律边界内运作。这些框架将定义问责结构、验证机制和安全约束，尤其是在涉及自主决策的高风险领域。最后，“领域特定系统”的兴起——针对法律、医学、物流和气候科学等行业定制——将使代理式AI能够利用情境专业化，在精细调优的工作流和专家推理能力支持下超越通用型智能体的表现。

一个面向未来AI系统的变革性方向由“绝对零点：零数据强化自博弈推理”（AZR）框架引入，该框架通过消除对外部数据集的依赖，重构了AI智能体与代理式AI系统的范式[173]。传统上，无论是AI智能体还是代理式AI架构，都依赖人工标注数据、静态知识库或预配置的环境因素，这限制了其在开放世界场景中的可扩展性与适应性。AZR通过使智能体自主生成、验证并解决自身任务来应对这一局限，利用可验证的反馈机制（例如代码执行）来锚定学习。这种自我演化机制为真正自主的推理智能体打开了大门，使其能够在动态、数据稀缺的环境中实现自我导向的学习与适应。

在代理式AI的语境中——多个专业化智能体在编排工作流内协作（即由中央控制器或元智能体管理的结构化、协调流程）——AZR为智能体不仅专精于不同角色，还能通过自我改进的互动和共享学习目标共同进化奠定了基础[173]。例如，科学研究流水线可由提出假设、运行模拟、验证发现并修订策略的智能体组成，整个过程完全通过自博弈与可验证推理完成，无需持续的人类监督。通过整合AZR范式，此类系统能够随时间持续增长、精炼知识并保持任务灵活性。最终，AZR揭示了一个未来图景：AI智能体将从静态的预训练工具转变为智能的、自我演化与自我改进的生态系统，使AI智能体与代理式AI均站在下一代人工智能的最前沿。

结论

在本研究中，我们基于文献对AI智能体与代理式AI系统不断演变的格局进行了全面评估，提出了一个结构化的分类体系，突出了基础概念、架构演进、应用领域以及关键局限性与潜在解决方案。从基础理解出发，我们将AI智能体定义为模块化、任务特定的实体，其自主性和反应性被限制在为其指定的任务范围内。它们的操作范围通过集成大语言模型（LLM）和语言交互模型（LIM）得以实现，这些模型作为核心推理模块，用于感知、语言理解和决策。我们指出生成式AI是AI智能体的功能前身，强调了其在自主性和目标持续性方面的局限，并探讨了LLM如何通过工具增强推动从被动生成到互动式任务完成的进步。

随后，本研究探讨了代理式AI系统作为从孤立智能体或实体向编排式多智能体生态系统转变的概念性演进——即多个专业智能体通过结构化角色分配、任务委派及集中式或分布式控制进行互动的协调框架，该框架由协作学习和集体决策驱动。我们分析了区分代理式AI与传统单智能体模型的关键特征，如分布式认知、持久记忆和协同规划。在此分析比较之后，我们详细剖析了架构演进过程，重点阐述了从单体式、基于规则的框架向模块化、角色专业化网络的转变。这些网络由编排层支持，编排层作为协调机制（无论是集中式还是去中心式），负责分配任务、监控智能体互动并管理各专业智能体间的依赖关系。结合反思式记忆架构，这些编排层实现了动态协作、任务适应性和上下文保留，标志着向可扩展、智能化智能体群体的根本性转变。

此外，本研究还调查了这两种范式（AI智能体与代理式AI系统）所部署的应用领域。对于AI智能体，我们说明了其在自动化客户支持、企业内部搜索、邮件优先级排序和日程安排中的作用。对于代理式AI，我们展示了其在协作研究、集群机器人、医疗决策支持和自适应工作流自动化中的用例，并辅以实际案例和行业级系统。最后，本研究深入分析了影响这两种范式的挑战与局限性。对于AI智能体，我们讨论了幻觉、浅层推理和规划约束等主要挑战；而对于代理式AI，我们则探讨了被放大的因果性问题、协调瓶颈、涌现行为及治理关切，这些问题限制了这些系统的快速进步与广泛应用。

通过这一比较框架，我们得出结论：AI智能体适用于目标明确、工具集成的狭窄场景；而代理式AI则代表了一种向分布式、多智能体认知范式的转变，具备自主规划与决策能力。从被动执行任务到编排式协作工作流的转变，标志着智能系统演进过程中的重要里程碑。这些见解为未来开发和部署可信、可扩展的代理式AI系统提供了路线图，使其能够适应复杂的现实世界环境。

原文链接：https://arxiv.org/pdf/2505.10468

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla