一、Agent的概念、组成和决策

1. Agent的概念

它通常可以通过感知环境进行决策并采取行动的系统。

主要特征:

  • 感知:通过传感器感知环境信息。
  • 推理:分析感知到的信息,根据设定的规则或者学习算法进行决策。
  • 行动:智能体根据推理结果采取行动,影响环境或自身状态。

在这里插入图片描述

注意:这个图片是四步,有一个Tools(工具),这是因为目前的Agent大多数对于工具的应用比较重视,所以单独分出了一个步骤,如果你是给别人分享是基于理论,那可以是三步,但如果是基于实践则是四步。

2. Agent的组成

  • 感知器:负责从外界环境中获取信息,它可以是传感器、输入设置或者任何能收集环境信息数据的系统组件。
  • 决策器:这是Agent的核心部分,负责分析从感知器获取的信息并做出决策
  • 效应器:决策器给出具体的决策指令,而效应器就是具体执行的元件,也就是胳膊啊轮子啊之类的,专业一点就是控制系统中的输出接口

3. Agent的决策过程

3.1 感知阶段

这个阶段是数据输入的阶段,一般包含以下几种信息:

  • 视觉信息
  • 声音信息
  • 位置信息
  • 温度、湿度等

但是在当前我们更多研究的是工作流,这是目前的主流,而对于工作流来说,这些信息类似,只不过来源都是从网络上来的,比如一些图片、视频、其余网友的评价等等。

3.2 推理阶段

根据已有的知识库、规则等等来分析外界信息,然后做出决策

  • 基于知识的推理
  • 基于数据的推理
  • 强化学习

3.3 决策阶段

  • 基于规则的决策:使用预定义的规则做出决策,一般可以是智能家居为代表。
  • 机器学习:通过数据训练和模型识别做出决策,只不过这种数据是基于外部环境的真实数据进行训练。
  • 优化算法:应用数学优化技术(强化学习、遗传算法)进行决策。

3.4 执行阶段

根据决策采取行动

4. Agent和大模型的本质区别

  • 大模型:理解为一个大脑,拥有强大的算力,但是没有实际的执行能力。
  • Agent:具有核心执行能力的机器人,可以根据大脑的指令执行和操作。

具体区别如下:

  • 互动性
    • 大模型:通常是一次性处理信息,生成输出,不具备和环境持续交互的能力,本质是静态的,无法主动执行动作或者学习。
    • Agent:在任务执行过程中可以和任务的环境持续进行交互,感知变化,然后做出最新的决策。
  • 目标导向
    • 大模型:大多数是在一个特定的上下文中回答问题或生成内容,它的目标是根据输入数据尽可能的给出最佳的输出,其实也可以理解为没有明确的目标。
    • Agent:通常围绕某个明确的目标和任务展开,比如自动驾驶、机器人导航等,是一个长期且明确的目标,同时在过程中会有学习和记忆的功能。
  • 行动执行能力
    • 大模型:结果是虚拟且没有实际执行能力的文字、图像、视频等等。
    • Agent:有实际执行能力,能在现实世界中给出反馈,具有超强的推理和分析能力。
特性 普通大模型 AI Agent
核心功能 内容生成与对话(思考与回答) 任务完成(感知、决策、行动)
与环境交互 被动。只能处理用户提供的输入。 主动。可以自主感知并改变环境。
工具使用 无法直接使用。只能描述如何使用工具。 核心能力。可以自主调用API、数据库、软件等。
数据时效性 依赖于训练数据,存在信息滞后性。 可通过工具获取实时信息(如最新天气、股价)。
任务复杂度 适合单轮、知识型的问答任务。 适合多步骤、需要外部交互的复杂任务(如“分析我上月的开支并生成报告”)。
运作模式 一问一答。 自主循环。“感知-思考-行动”循环直至任务完成。

5. Agent的优势

  • 自适应性:Agent能够根据实时感知到的信息调整行为,特别是在动态和不确定的环境中,能够自主做出调整。

  • 长期目标驱动:Agent在行动时考虑长期目标而不仅仅是即时的反应。这使得它们能够处理复杂任务,比如策略游戏中的决策。

  • 高效任务执行:通过实时交互与反馈机制,Agent能够迅速调整行动路径,减少不必要的重复工作,从而提高整体效率。

  • 更强的学习能力:特别是在强化学习框架下,Agent可以通过与环境的交互,逐步优化自己的决策策略,变得更加高效。

  • 自动化与智能化:智能体可以减少人工干预,并且在复杂系统(如工业自动化、医疗诊断、机器人控制等)中扮演至关重要的角色。

二、子任务拆解——COT、TOT、GOT、ReAct

在智能体Agent的决策和操作过程中,子任务拆解是一个非常重要的步骤,它能将一个复杂的任务拆解为多个详细、更容易执行的小任务,这种 方式能大大提升任务的执行效率,同时也能更好的应对复杂的环境和长远的目标,分为多种处理形式,每一种形式都代表的不同的应用场景。

1. COT——思维链(Chain of Thought)

📌 COT是一种线性的推理方式,通过一步一步的推理和思考来达到目标,通常是通过一定的逻辑顺序进行,依次展开,核心特点是顺序性连贯性,这个过程中注重每一步的连续推导和衔接

COT的基本特征

  • 线性过程:COT依赖于一个清晰的推理线条,每一个思维步骤都为下一步的推理提供依据。
  • 逐步推导:COT的每一步都是基于前一步的结论进行思考。
  • 简化过程:COT通过线性推理将复杂问题拆解,并解决每一个子问题。

COT的优势

  • 简化复杂任务:通过分解任务来减少任务的难度。
  • 易于理解与调试:每一个推理步骤都是明确的,便于理解和检查。

在这里插入图片描述

2. TOT——思维树(Tree of Thought)

通过字面意思可以理解,这是一个树形结构的思维过程,它同样会拆分成多个子任务,但是通过树状分支的形式展现出不同的解决路径。与COT不同的是,TOT允许多条思维路径并行发展,适用于多种解决方案或多任务的场景。

在这里插入图片描述

TOT的基本特征

  • 分支性思维:TOT会形成一个树状的推理过程,存在多个解决方式的分支。
  • 多任务处理:TOT允许并行处理多个子任务,并在不同的路径上尝试不同的思维方式。
  • 递归结构:每个节点可以继续被拆解为更多的子任务,形成更深的树结构。

工作原理

  1. 思路生成:在当前的推理节点,模型会生成多个可能得下一步推理思路。
  2. 思路评估:模型或一个独立的评估器对这些思路的质量和前景进行评分。
  3. 搜索算法:根据评估分数,使用搜索算法(如广度优先、深度优先、最佳优先)决定下一步探索哪个节点(思路)。
  4. 决策:重复以上过程,直到某个路径得出令人满意的答案或达到搜索限制。

优势

  • 适应复杂决策问题
  • 并行推理

3. COT和TOT的区别及应用场景

特性 Chain-of-Thought (CoT) Tree-of-Thought (ToT)
核心比喻 写下解题步骤 探索决策树
最佳场景 有明确、线性步骤的问题(数学计算、逻辑推理) 开放式、需要创意或策略的问题(规划、写作、编程)
复杂度/成本 低(一次生成) 高(多次生成和评估)
如何手动使用 在向大模型提问时,加上提示词:“让我们一步步地思考。” 目前较难直接通过简单提示实现,通常需要编程框架支持。但可以手动模拟:要求模型"列出三种可能的解决方案,并分析每种方案的优缺点"。
在Agent中的作用 基础推理引擎。负责执行每个子任务内部的逻辑计算。 高级规划器。当遇到歧义或多个选择时,负责探索不同路径,制定最优计划。

    基于上我们可以分析出,一个是专注于子任务处理的方式,一个则是多任务决策的方式,一般情况下两者都是配合使用的,先有TOT进行决策和分解,得到最优的解决思路,之后交由COT进行拆分执行。当然,一般的简单问题可以直接使用COT进行。

4. GOT——思维图谱(Graph of Thought)

GOT是一种基于图结构模式的思维方式,它通过图的节点和边来表示知识、任务、推理路径及其关系,每个节点代表一个思维元素(如子任务、结论、假设等),而节点之间的边表示他们之间的逻辑关系或者推理过程。这样能够捕捉复杂任务中多个思维元素之间的思维关系,从而让Agent能够以图的方式表示和探索任务的多种可能性。

在这里插入图片描述

核心特征

  • 灵活的推理路径:GOT在TOT的基础上还可以随机调整推理方向,而不像TOT一旦确认思路后就无法改变,并且不同思路之间不能进行交互,从而导致一些优秀的答案不能互相利用。
  • 多维关系:GOT能捕捉到任务中多种因素之间的关系,比如目标的优先级、约束条件、任务的依赖关系等等。

应用实例

  • 比如一个复杂的实验项目,GOT需要将不同步骤(如实验设计、信息收集、信息分析)等多个步骤之间的关系进行连接,动态的进行调整,当信息分析发现缺失数据时,就需要再次到上一个步骤中进行。

5. ReAct——推理与行动(Reasoning and Acting)

ReAct是一种推理和行动结合的框架,能够在推理的过程中快速的采取行动,和外界环境紧密相连,而不是死板的生成结果,在每次行动之后会再次进行推理,从而可以实时的收集到外界的环境信息。

在这里插入图片描述

核心思想

  • 交替推理和行动:Agent分析当前环境和任务,在行动阶段,Agent基于推理采取行动,之后通过反馈调整决策。
  • 及时反馈和调整:每一次的行动都会影响下一步的推理和决策,能非常好的适应环境的变化。
  • 动态决策:ReAct允许在不断的推理和行动中优化策略,而不是按照预先制定的决策采取行动。

6. 整体对比和总结

维度 CoT ToT GoT ReAct
结构比喻 直线链条 决策树 神经网络 自治循环系统
核心能力 顺序推理 多路径搜索 合成优化 与环境交互
灵活性 ⭐☆☆☆☆ ⭐⭐☆☆☆ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐☆
计算成本 中高 取决于任务复杂度
典型应用 数学解题
逻辑推理
创意生成
策略规划
复杂问题解决
创新设计
自动化任务
实时信息处理

这四种方式分别对应了不同的场景,但Agent最终的主要核心还是ReAct形式的交互,因为我们的智能体不会仅仅停留在文字、图片和视频的处理,一个能感知外界环境,理解人类情绪和表情的超强智能体才是我们所追求的最终目标。

三、Agent记忆

记忆是智能体(无论是人类还是人工智能)用于获取、存储、保留以及后续检索信息的能力。它是智能体形成连贯的自我认知、与环境有效交互以及进行复杂推理和学习的基石。没有记忆,每一次交互都将从零开始,智能体将无法实现真正的“智能”。

1. 生活中的记忆机制

短期记忆与长期记忆

  • 短期记忆: 在短时间内存储的信息,通常保持时间在20-30秒,容量有限。
  • 长期记忆:可以存储几年-几十年或者终生,进一步分为
    • 显式记忆:主动回忆的记忆,比如一些历史事件或者你的亲身经历。
    • 隐式记忆:不需要有意识的会议,比如骑车或者敲击键盘等。

记忆的编码、存储和提取

  • 编码:外部信息通过感官进入大脑后,经过处理(感知、思考、理解),转化为可存储的信息。
  • 存储:信息会被存储到大脑的不同地方,例如语言和语义相关的会存储在大脑的语言区域,视觉信息存储在视觉皮层区域。
  • 提取:从记忆中提取信息,能够回忆成功取决于信息在大脑中的存储质量和提取线索的有效性。

2. 智能体中的记忆机制

智能体(Agent)的记忆机制与人类的记忆机制相似,但由于智能体通常是计算机程序或机器人系统,它们的记忆更多是基于数据结构和算法来实现的。智能体的记忆机制可以分为感知记忆、工作记忆和长期记忆等。

感知记忆

  • Agent从环境中获取的信息,是最短期的记忆,通常用于实时的决策和反应
  • 一般存储的都是最原始的数据,随着时间的推移会被新的感知记忆所替代。
  • 例如自动驾驶系统中,感知记忆就是实时从外界获取的环境信息,随着汽车的前进随时进行更替。

工作记忆

  • 工作记忆类似人类的短期记忆,相当于Agent处理和操作信息的内存。
  • 工作记忆通常存储的是正在执行任务所需的信息,可能包含当前的位置、目标位置、当前的环境状态等信息。
  • 工作记忆在任务的执行过程中会不断更新(优点类似感知记忆的机制),并且会在任务完成后被清空或者说转化为长期记忆。

长期记忆

  • 长期记忆是Agent存储长期任务和经验的地方,也就是每次执行任务所学习的内容,能提高Agent的学习和适应能力。
  • 比如一些奖励机制和奖励结果进行存储,这样方便后期进行更好的决策。
  • 其中,经验回放是一种长期记忆管理的方式,智能体会通过回放历史经历来加速学习过程。

增量学习与记忆

  • 增量学习机制允许Agent在学习过程中持续不断的更新记忆,而不需要重新训练整个模型,通过持续积累的信息和旧信息进行结合,在执行任务过程中不断调整行为。
  • 例如:在机器人中,新的传感器数据、环境信息与其他智能体的交互经验会不断的被存储,以便在后续的任务中使用。

记忆的更新和删除

  • 与人类的记忆相似,智能体的记忆也需要定期的更新和删除,Agent需要去除过时的、无关的或者误导的信息,防止记忆过载。
  • 遗忘机制可以帮助智能体主动丢弃不需要的信息,或者根据信息的相关性来加以保留。

记忆在多智能体系统中的应用

  • 在多智能体系统中,每个智能体都可能拥有自己的记忆库,通过交换信息和经验,智能体之间可以协作和协调决策。例如,智能体之间可以共享部分长期记忆(如过去成功的策略),以帮助共同达成目标。

  • 共享记忆集体记忆是一种常见的概念,多个智能体通过协作与交流,积累集体的知识,以提高系统的整体表现。

总结

这是关于一些Agent的进阶知识,通常有助于我们在后续的编码中选择合适的方式,是非常重要的一部分知识。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐