参考视频:https://www.bilibili.com/video/BV1uNk1YxEJQ

AI Agent概念、组成与决策

AI Agent是基于LLM的能够自主理解、自主规划决策、执行复杂任务的智能体。

Agent设计的目的是为了处理那些简单的语言模型可能无法直接解决的问题,尤其是当这些任务涉及到多个步骤

AI Agent流程图

规划(Planning):将大型任务分解成子任务,并规划执行任务的流程。智能体会对任务执行的过程进行反思和思考,从而决定继续执行任务,或判断任务已经完结并终止。

记忆(Memory):短期记忆和长期记忆,短期记忆适用于上下文,在任务完结后会被清空。长期记忆适用于外部知识库,通常用向量数据库来存储和检索。

工具使用(Tool):为智能体配备工具API,例如计算器、搜索工具、代码执行器等

执行(Action):根据规划和记忆来实施具体行动。

Agents决策流程图

Agent决策应用场景分析

智能家居系统,根据家庭成员的需求调节室内环境,比如温度和灯光。

**感知**

--家庭成员说“我感觉有点冷,能不能把温度调高一点?”

--系统通过语言识别和情感分析技术“感知”到用户觉得房间温度太低,需要提高温度

**规划**

--系统根据用户的需求规划下一步的行动,决定如何调节房间的温度

--系统可能制定如下计划 1.检查当前室内温度 2.根据用户偏好和当前温度决定升高几度合适 3.调整温度设置并告知用户

**行动**

--系统执行计划的行动,首先检查当前温度

--根据用户的偏好,调高温度,并通过语音助手反馈给用户

**观察**

--系统观察房间温度的变化以及用户的反馈。

--如果用户还觉得冷,系统可能会调整计划,进一步调高温度

### 循环

--通过一系列上述步骤,智能家居系统能动态响应家庭成员的需求

Agent规划子任务拆解_COT与TOT_

规划    可以理解为观察和思考 通过LLM智能体将大任务分解成更小的、更可控的子任务

思维链(Chain of Thoughts COT)

思维链是一种比较标准的提示技术,能显著提升LLM完成复杂任务的效果。当我们对LLM这样要求[think step by step],LLM会把问题分解成多个步骤,一步一步思考和解决。这是一种线性的思维方式。

思维树(Tree of Thoughts TOT)

对CoT的进一步扩展,在思维链的每一步,推理出多个分支,拓扑展开成一颗思维树。使用启发式方法评估每个推理分支对解决问题的贡献。选择搜索算法,使用广度优先搜索(BFS)或深度优先搜索(DFS)等算法探索思维树,并进行前瞻和回溯。

缺点:计算量比较大

Self Consistency with CoT:自洽型,是思维链的一种延伸。有多条思维链,取方差最小的值。但是也有缺点,存在从众心理。

反思与改进

Re act框架

  • 标准(Standard) 没有提供任何推理过程或外部交互,直接给出答案。
  • 仅推理(Reason Only) 尝试通过逐步推理来解决问题,但没有外部环境交互来解决问题。
  • 仅行动(Act Only) 通过与外部环境的多次交互来获取信息,尝试多次搜索,但是缺乏推理支持,未能综合这些观察结果后得出正确答案。
  • ReAct 组合推理和行动,首先通过推理确定搜索,并从外部环境中观察结果。随着推理的深入,识别出需要搜索Front Row。几轮交互后,通过进一步推理,准确得出答案。

Agent记忆(Memory)

智能体的记忆机制

  • 形成记忆:大模型在大量包含世界知识的数据集上进行预训练。在预训练中,大模型通过调整神经元的权重来学习理解和生成人类语言,这可以被视为“记忆”的形成过程。通过使用深度学习和梯度下降等技术,大模型可以不断提高基于预测或生产文本的能力,进而形成世界记忆或长期记忆。
  • 短期记忆
  • 长期记忆

 工具使用(Tools/Toolkits)

 Agent可以学习调用外部API来获取模型权重中所缺少的额外信息,这些信息包括当前信息、代码执行能力和访问专有信息源等。

我们可以为语言模型(LLM)提供外部工具来显著提升其能力。

预制工具:当我们想使用某些能力时,有些工具已经分装完成。
Bing Search API:允许开发者通过简单的API调用集成微软Bing搜索引擎的功能到自己的应用程序中,而不需要自己从头构建一个搜索引擎。开发者可以通过这个API发送查询请求,并接收返回的搜索结果,包括网页、图片、视频等多种形式的内容。

优势:

  • 节省时间和资源:无需从零开始构建复杂的技术架构来支持搜索功能
  • 易于集成:只需几行代码就可以将强大的搜索功能添加到应用中
  • 持续更新:由提供者负责维护和更新服务,确保性能和安全性的改进能够自动应用于所有用户

工具集:有一套集成好的API,最具代表性的是微软的服务

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐