Ai-Agent学习历程——Agent进阶篇

一、Agent的概念、组成和决策1. Agent的概念2. Agent的组成3. Agent的决策过程3.1 感知阶段3.2 推理阶段3.3 决策阶段3.4 执行阶段4. Agent和大模型的本质区别5. Agent的优势

蓝桉~MLGT

1083人浏览 · 2025-09-24 00:55:17

蓝桉~MLGT · 2025-09-24 00:55:17 发布

Ai-Agent学习历程——Agent进阶篇

一、Agent的概念、组成和决策
二、子任务拆解——COT、TOT、GOT、ReAct
三、Agent记忆
总结

一、Agent的概念、组成和决策

1. Agent的概念

它通常可以通过感知环境进行决策并采取行动的系统。

主要特征：

感知：通过传感器感知环境信息。
推理：分析感知到的信息，根据设定的规则或者学习算法进行决策。
行动：智能体根据推理结果采取行动，影响环境或自身状态。

在这里插入图片描述

注意：这个图片是四步，有一个Tools（工具），这是因为目前的Agent大多数对于工具的应用比较重视，所以单独分出了一个步骤，如果你是给别人分享是基于理论，那可以是三步，但如果是基于实践则是四步。

2. Agent的组成

感知器：负责从外界环境中获取信息，它可以是传感器、输入设置或者任何能收集环境信息数据的系统组件。
决策器：这是Agent的核心部分，负责分析从感知器获取的信息并做出决策。
效应器：决策器给出具体的决策指令，而效应器就是具体执行的元件，也就是胳膊啊轮子啊之类的，专业一点就是控制系统中的输出接口。

3. Agent的决策过程

3.1 感知阶段

这个阶段是数据输入的阶段，一般包含以下几种信息：

视觉信息
声音信息
位置信息
温度、湿度等

但是在当前我们更多研究的是工作流，这是目前的主流，而对于工作流来说，这些信息类似，只不过来源都是从网络上来的，比如一些图片、视频、其余网友的评价等等。

3.2 推理阶段

根据已有的知识库、规则等等来分析外界信息，然后做出决策

基于知识的推理
基于数据的推理
强化学习

3.3 决策阶段

基于规则的决策：使用预定义的规则做出决策，一般可以是智能家居为代表。
机器学习：通过数据训练和模型识别做出决策，只不过这种数据是基于外部环境的真实数据进行训练。
优化算法：应用数学优化技术（强化学习、遗传算法）进行决策。

3.4 执行阶段

根据决策采取行动

4. Agent和大模型的本质区别

大模型：理解为一个大脑，拥有强大的算力，但是没有实际的执行能力。
Agent：具有核心执行能力的机器人，可以根据大脑的指令执行和操作。

具体区别如下：

互动性
- 大模型：通常是一次性处理信息，生成输出，不具备和环境持续交互的能力，本质是静态的，无法主动执行动作或者学习。
- Agent：在任务执行过程中可以和任务的环境持续进行交互，感知变化，然后做出最新的决策。
目标导向
- 大模型：大多数是在一个特定的上下文中回答问题或生成内容，它的目标是根据输入数据尽可能的给出最佳的输出，其实也可以理解为没有明确的目标。
- Agent：通常围绕某个明确的目标和任务展开，比如自动驾驶、机器人导航等，是一个长期且明确的目标，同时在过程中会有学习和记忆的功能。
行动执行能力
- 大模型：结果是虚拟且没有实际执行能力的文字、图像、视频等等。
- Agent：有实际执行能力，能在现实世界中给出反馈，具有超强的推理和分析能力。

特性	普通大模型	AI Agent
核心功能	内容生成与对话（思考与回答）	任务完成（感知、决策、行动）
与环境交互	被动。只能处理用户提供的输入。	主动。可以自主感知并改变环境。
工具使用	无法直接使用。只能描述如何使用工具。	核心能力。可以自主调用API、数据库、软件等。
数据时效性	依赖于训练数据，存在信息滞后性。	可通过工具获取实时信息（如最新天气、股价）。
任务复杂度	适合单轮、知识型的问答任务。	适合多步骤、需要外部交互的复杂任务（如“分析我上月的开支并生成报告”）。
运作模式	一问一答。	自主循环。“感知-思考-行动”循环直至任务完成。

5. Agent的优势

自适应性：Agent能够根据实时感知到的信息调整行为，特别是在动态和不确定的环境中，能够自主做出调整。
长期目标驱动：Agent在行动时考虑长期目标而不仅仅是即时的反应。这使得它们能够处理复杂任务，比如策略游戏中的决策。
高效任务执行：通过实时交互与反馈机制，Agent能够迅速调整行动路径，减少不必要的重复工作，从而提高整体效率。
更强的学习能力：特别是在强化学习框架下，Agent可以通过与环境的交互，逐步优化自己的决策策略，变得更加高效。
自动化与智能化：智能体可以减少人工干预，并且在复杂系统（如工业自动化、医疗诊断、机器人控制等）中扮演至关重要的角色。

二、子任务拆解——COT、TOT、GOT、ReAct

在智能体Agent的决策和操作过程中，子任务拆解是一个非常重要的步骤，它能将一个复杂的任务拆解为多个详细、更容易执行的小任务，这种方式能大大提升任务的执行效率，同时也能更好的应对复杂的环境和长远的目标，分为多种处理形式，每一种形式都代表的不同的应用场景。

1. COT——思维链（Chain of Thought）

📌 COT是一种线性的推理方式，通过一步一步的推理和思考来达到目标，通常是通过一定的逻辑顺序进行，依次展开，核心特点是顺序性和连贯性，这个过程中注重每一步的连续推导和衔接。

COT的基本特征

线性过程：COT依赖于一个清晰的推理线条，每一个思维步骤都为下一步的推理提供依据。
逐步推导：COT的每一步都是基于前一步的结论进行思考。
简化过程：COT通过线性推理将复杂问题拆解，并解决每一个子问题。

COT的优势

简化复杂任务：通过分解任务来减少任务的难度。
易于理解与调试：每一个推理步骤都是明确的，便于理解和检查。

在这里插入图片描述

2. TOT——思维树（Tree of Thought）

通过字面意思可以理解，这是一个树形结构的思维过程，它同样会拆分成多个子任务，但是通过树状分支的形式展现出不同的解决路径。与COT不同的是，TOT允许多条思维路径并行发展，适用于多种解决方案或多任务的场景。

在这里插入图片描述

TOT的基本特征

分支性思维：TOT会形成一个树状的推理过程，存在多个解决方式的分支。
多任务处理：TOT允许并行处理多个子任务，并在不同的路径上尝试不同的思维方式。
递归结构：每个节点可以继续被拆解为更多的子任务，形成更深的树结构。

工作原理

思路生成：在当前的推理节点，模型会生成多个可能得下一步推理思路。
思路评估：模型或一个独立的评估器对这些思路的质量和前景进行评分。
搜索算法：根据评估分数，使用搜索算法（如广度优先、深度优先、最佳优先）决定下一步探索哪个节点（思路）。
决策：重复以上过程，直到某个路径得出令人满意的答案或达到搜索限制。

优势

适应复杂决策问题
并行推理

3. COT和TOT的区别及应用场景

特性	Chain-of-Thought (CoT)	Tree-of-Thought (ToT)
核心比喻	写下解题步骤	探索决策树
最佳场景	有明确、线性步骤的问题（数学计算、逻辑推理）	开放式、需要创意或策略的问题（规划、写作、编程）
复杂度/成本	低（一次生成）	高（多次生成和评估）
如何手动使用	在向大模型提问时，加上提示词：“让我们一步步地思考。”	目前较难直接通过简单提示实现，通常需要编程框架支持。但可以手动模拟：要求模型"列出三种可能的解决方案，并分析每种方案的优缺点"。
在Agent中的作用	基础推理引擎。负责执行每个子任务内部的逻辑计算。	高级规划器。当遇到歧义或多个选择时，负责探索不同路径，制定最优计划。

基于上我们可以分析出，一个是专注于子任务处理的方式，一个则是多任务决策的方式，一般情况下两者都是配合使用的，先有TOT进行决策和分解，得到最优的解决思路，之后交由COT进行拆分执行。当然，一般的简单问题可以直接使用COT进行。

4. GOT——思维图谱（Graph of Thought）

GOT是一种基于图结构模式的思维方式，它通过图的节点和边来表示知识、任务、推理路径及其关系，每个节点代表一个思维元素（如子任务、结论、假设等），而节点之间的边表示他们之间的逻辑关系或者推理过程。这样能够捕捉复杂任务中多个思维元素之间的思维关系，从而让Agent能够以图的方式表示和探索任务的多种可能性。

在这里插入图片描述

核心特征

灵活的推理路径：GOT在TOT的基础上还可以随机调整推理方向，而不像TOT一旦确认思路后就无法改变，并且不同思路之间不能进行交互，从而导致一些优秀的答案不能互相利用。
多维关系：GOT能捕捉到任务中多种因素之间的关系，比如目标的优先级、约束条件、任务的依赖关系等等。

应用实例

比如一个复杂的实验项目，GOT需要将不同步骤（如实验设计、信息收集、信息分析）等多个步骤之间的关系进行连接，动态的进行调整，当信息分析发现缺失数据时，就需要再次到上一个步骤中进行。

5. ReAct——推理与行动（Reasoning and Acting）

ReAct是一种推理和行动结合的框架，能够在推理的过程中快速的采取行动，和外界环境紧密相连，而不是死板的生成结果，在每次行动之后会再次进行推理，从而可以实时的收集到外界的环境信息。

在这里插入图片描述

核心思想

交替推理和行动：Agent分析当前环境和任务，在行动阶段，Agent基于推理采取行动，之后通过反馈调整决策。
及时反馈和调整：每一次的行动都会影响下一步的推理和决策，能非常好的适应环境的变化。
动态决策：ReAct允许在不断的推理和行动中优化策略，而不是按照预先制定的决策采取行动。

6. 整体对比和总结

维度	CoT	ToT	GoT	ReAct
结构比喻	直线链条	决策树	神经网络	自治循环系统
核心能力	顺序推理	多路径搜索	合成优化	与环境交互
灵活性	⭐☆☆☆☆	⭐⭐☆☆☆	⭐⭐⭐⭐⭐	⭐⭐⭐⭐☆
计算成本	低	中高	高	取决于任务复杂度
典型应用	数学解题逻辑推理	创意生成策略规划	复杂问题解决创新设计	自动化任务实时信息处理

这四种方式分别对应了不同的场景，但Agent最终的主要核心还是ReAct形式的交互，因为我们的智能体不会仅仅停留在文字、图片和视频的处理，一个能感知外界环境，理解人类情绪和表情的超强智能体才是我们所追求的最终目标。

三、Agent记忆

记忆是智能体（无论是人类还是人工智能）用于获取、存储、保留以及后续检索信息的能力。它是智能体形成连贯的自我认知、与环境有效交互以及进行复杂推理和学习的基石。没有记忆，每一次交互都将从零开始，智能体将无法实现真正的“智能”。

1. 生活中的记忆机制

短期记忆与长期记忆

短期记忆：在短时间内存储的信息，通常保持时间在20-30秒，容量有限。
长期记忆：可以存储几年-几十年或者终生，进一步分为
- 显式记忆：主动回忆的记忆，比如一些历史事件或者你的亲身经历。
- 隐式记忆：不需要有意识的会议，比如骑车或者敲击键盘等。

记忆的编码、存储和提取

编码：外部信息通过感官进入大脑后，经过处理（感知、思考、理解），转化为可存储的信息。
存储：信息会被存储到大脑的不同地方，例如语言和语义相关的会存储在大脑的语言区域，视觉信息存储在视觉皮层区域。
提取：从记忆中提取信息，能够回忆成功取决于信息在大脑中的存储质量和提取线索的有效性。

2. 智能体中的记忆机制

智能体（Agent）的记忆机制与人类的记忆机制相似，但由于智能体通常是计算机程序或机器人系统，它们的记忆更多是基于数据结构和算法来实现的。智能体的记忆机制可以分为感知记忆、工作记忆和长期记忆等。

感知记忆

Agent从环境中获取的信息，是最短期的记忆，通常用于实时的决策和反应。
一般存储的都是最原始的数据，随着时间的推移会被新的感知记忆所替代。
例如自动驾驶系统中，感知记忆就是实时从外界获取的环境信息，随着汽车的前进随时进行更替。

工作记忆

工作记忆类似人类的短期记忆，相当于Agent处理和操作信息的内存。
工作记忆通常存储的是正在执行任务所需的信息，可能包含当前的位置、目标位置、当前的环境状态等信息。
工作记忆在任务的执行过程中会不断更新（优点类似感知记忆的机制），并且会在任务完成后被清空或者说转化为长期记忆。

长期记忆

长期记忆是Agent存储长期任务和经验的地方，也就是每次执行任务所学习的内容，能提高Agent的学习和适应能力。
比如一些奖励机制和奖励结果进行存储，这样方便后期进行更好的决策。
其中，经验回放是一种长期记忆管理的方式，智能体会通过回放历史经历来加速学习过程。

增量学习与记忆

增量学习机制允许Agent在学习过程中持续不断的更新记忆，而不需要重新训练整个模型，通过持续积累的信息和旧信息进行结合，在执行任务过程中不断调整行为。
例如：在机器人中，新的传感器数据、环境信息与其他智能体的交互经验会不断的被存储，以便在后续的任务中使用。

记忆的更新和删除

与人类的记忆相似，智能体的记忆也需要定期的更新和删除，Agent需要去除过时的、无关的或者误导的信息，防止记忆过载。
遗忘机制可以帮助智能体主动丢弃不需要的信息，或者根据信息的相关性来加以保留。

记忆在多智能体系统中的应用

在多智能体系统中，每个智能体都可能拥有自己的记忆库，通过交换信息和经验，智能体之间可以协作和协调决策。例如，智能体之间可以共享部分长期记忆（如过去成功的策略），以帮助共同达成目标。
共享记忆或集体记忆是一种常见的概念，多个智能体通过协作与交流，积累集体的知识，以提高系统的整体表现。

总结

这是关于一些Agent的进阶知识，通常有助于我们在后续的编码中选择合适的方式，是非常重要的一部分知识。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla