构建通用LLM智能体的七大绝技!你准备好了吗?
LLM代理是一个其执行逻辑由其基础模型控制的程序。LLM代理与少量提示或固定工作流等方法的不同之处在于,它能够定义和调整执行用户查询所需的步骤。在访问一组工具(如代码执行或网络搜索)的情况下,代理可以决定使用哪个工具,如何使用它,并根据输出对结果进行迭代。这种适应性使系统能够以最小的配置处理多样化的用例。代理架构存在于一个光谱上,从固定工作流的可靠性到自主代理的灵活性。例如,像检索增强生成(RAG
1、一步一步的指南

为什么要构建一个通用代理? 因为它是原型化用例的优秀工具,并为设计自己的定制代理架构奠定基础。
在我们深入之前,先简单介绍一下LLM代理。可以随意跳过。
2、什么是LLM代理?
LLM代理是一个其执行逻辑由其基础模型控制的程序。

LLM代理与少量提示或固定工作流等方法的不同之处在于,它能够定义和调整执行用户查询所需的步骤。在访问一组工具(如代码执行或网络搜索)的情况下,代理可以决定使用哪个工具,如何使用它,并根据输出对结果进行迭代。这种适应性使系统能够以最小的配置处理多样化的用例。

代理架构存在于一个光谱上,从固定工作流的可靠性到自主代理的灵活性。例如,像检索增强生成(RAG)这样的固定流程可以通过自我反思循环进行增强,使程序在初始响应不尽如人意时能够进行迭代。或者,一个ReAct代理可以配备固定流程作为工具,提供灵活而结构化的方法。架构的选择最终取决于用例以及所需的可靠性与灵活性之间的权衡。
3、让我们从头开始构建一个通用 LLM 代理!
第1步. 选择合适的 LLM
选择合适的模型对于实现所需的性能至关重要。需要考虑多个因素,例如许可、成本和语言支持。构建 LLM 代理时,最重要的考虑因素是模型在编码、工具调用和推理等关键任务上的表现。评估的基准包括:
-
大规模多任务语言理解 (MMLU)(推理)
-
伯克利的函数调用排行榜(工具选择与工具调用)
-
HumanEval 和 BigCodeBench(编码)
另一个关键因素是模型的上下文窗口。代理工作流可能会消耗大量的令牌——有时超过 100K——更大的上下文窗口非常有帮助。
需要考虑的模型(撰写时)
-
前沿模型:GPT4\-o,Claude 3\.5
-
开源模型:Llama3\.2,Qwen2\.5。
一般来说,较大的模型往往提供更好的性能,但可以本地运行的较小模型仍然是一个不错的选择。使用较小的模型时,您将受到更简单用例的限制,可能只能将代理连接到一两个基本工具。
第2步. 定义代理的控制逻辑(即通信结构)

简单的 LLM 和代理之间的主要区别在于 系统提示。
在 LLM 的上下文中,系统提示 是在模型与用户查询交互之前提供给模型的一组指令和上下文信息。
预期 LLM 的代理行为可以在系统提示中进行编码。
以下是一些常见的代理模式,可以根据您的需求进行定制:
-
工具使用: 代理确定何时将查询路由到适当的工具或依赖其自身的知识。
-
反思: 代理在回应用户之前审查并纠正其答案。大多数 LLM 系统也可以添加反思步骤。
-
推理-再行动(ReAct): 代理通过推理如何解决查询,执行一个动作,观察结果,并决定是否采取其他行动或提供响应。
-
计划-再执行: 代理提前计划,将任务分解为子步骤(如有必要),然后执行每个步骤。
最后两种模式——ReAct 和 计划-再执行——通常是构建通用单一代理的最佳起点。

要有效地实现这些行为,您需要进行一些提示工程。您可能还希望使用 结构化生成技术。这基本上意味着将 LLM 的输出塑造成特定格式或模式,以便代理的响应与您所追求的沟通风格保持一致。
第 3 步. 定义代理的核心指令
我们往往理所当然地认为 LLM 具备一系列开箱即用的功能。其中一些功能非常出色,但其他功能可能并不是您所需要的。为了获得您期望的性能,清楚地列出您希望在系统提示中包含的所有功能——以及不希望包含的功能——是很重要的。
这可能包括如下指令:
-
代理名称和角色: 代理的名称以及它的职责。
-
语气和简洁性: 应该多正式或随意,以及应该多简洁。
-
何时使用工具: 决定何时依赖外部工具与模型自身知识的选择。
-
处理错误: 当工具或过程出现问题时,代理应该怎么做。
第4步. 定义和优化您的核心工具
工具是赋予您的智能体超能力的关键。有了明确的一组工具,您可以实现广泛的功能。需要包含的关键工具包括代码执行、网页搜索、文件读取和数据分析。
对于每个工具,您需要定义以下内容,并将其作为系统提示的一部分:
-
工具名称: 一个独特且描述性的能力名称。
-
工具描述: 清晰说明工具的功能及其使用时机的解释。这有助于智能体判断何时选择合适的工具。
-
工具输入模式: 概述所需和可选参数、其类型及任何约束的模式。智能体根据用户的查询使用此模式填写所需的输入。
-
指向工具运行位置/方式的指针。
第5步. 决定内存处理策略
LLMs 的上下文窗口有限——它们一次可以“记住”的标记数量。随着多轮对话中的过去互动、冗长的工具输出或代理所基于的额外上下文,这种内存可能会迅速填满。这就是为什么拥有一个稳健的内存处理策略至关重要。
内存在代理的上下文中,指的是系统存储、回忆和利用过去互动信息的能力。这使得代理能够随着时间的推移保持上下文,根据之前的交流改善响应,并提供更个性化的体验。
常见内存处理策略:
-
滑动内存: 保留最近的 k 次对话轮次,并丢弃较早的轮次。
-
标记内存: 保留最近的 n 个标记,忘记其余部分。
-
摘要内存: 在每次轮次中使用 LLM 对对话进行总结,并丢弃单独的消息。
此外,您还可以让 LLM 检测关键时刻以存储在长期内存中。这使得代理能够“记住”用户的重要事实,使体验更加个性化。
到目前为止,我们所讨论的五个步骤为设置代理奠定了基础。但是,如果我们在这个阶段通过 LLM 运行用户查询,会发生什么呢?

此时,代理生成原始文本输出。那么我们如何让它实际执行下一步呢?这就是解析和协调发挥作用的地方。
第6步. 解析代理的原始输出
解析器是一个将原始数据转换为您的应用程序可以理解和处理的格式(例如具有属性的对象)的函数。
对于我们正在构建的代理,解析器需要识别我们在第2步中定义的通信结构,并返回结构化输出,例如JSON。这使得应用程序更容易处理和执行代理的下一步。
注意:一些模型提供者如 OpenAI,可以默认返回可解析的输出。对于其他模型,特别是开源模型,需要进行配置。
第7步. 协调代理的下一步
最后一步是设置协调逻辑。这决定了LLM输出结果后会发生什么。根据输出,您将要么:
1、 执行工具调用,或
2、返回答案 — 要么是用户查询的最终响应,或是后续请求更多信息。

如果触发了工具调用,工具的输出将返回给LLM(作为其工作记忆的一部分)。LLM随后将确定如何处理这些新信息:要么执行另一个工具调用,要么返回答案给用户。
就这样! 您现在拥有一个能够处理各种用例的系统 — 从竞争分析和高级研究到自动化复杂工作流程。
4、多智能体系统的应用场景
虽然这一代的 LLM 非常强大,但它们有一个关键的限制:它们在信息过载方面存在困难。过多的上下文或工具会使模型不堪重负,从而导致性能问题。通用的单一智能体最终会遇到这一瓶颈,尤其是因为智能体通常对令牌的需求很高。
对于某些用例,多智能体设置可能更为合理。通过将责任分配给多个智能体,您可以避免单个 LLM 智能体的上下文过载,从而提高整体效率。
也就是说,通用的单智能体设置是原型设计的绝佳起点。它可以帮助您快速测试用例,并识别出哪些地方开始出现问题。在这个过程中,您可以:
1、理解任务的哪些部分真正受益于智能体的方法。
2、 识别可以作为更大工作流程中独立过程的组件。
从单个智能体开始,可以为您提供宝贵的见解,以便在扩展到更复杂的系统时优化您的方法。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】


第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)