吴恩达《Agentic AI》智能体课程五分钟速读

视频课程链接:https://learn.deeplearning.ai/courses/agentic-ai/lesson/moivygo8/task-decomposition:-identifying-the-steps-in-a-workflow

课程系统地介绍了Agentic AI的概念、价值、构建方法及核心设计模式。吴恩达开篇定义了Agentic AI工作流,即LLM通过执行多步骤、迭代式的过程来完成复杂任务,相比单次提示能产生更优质的结果。他强调了Agentic系统具备不同程度的自主性,从步骤固定的低自主性代理到能自主决策步骤序列的高自主性代理。

课程的核心在于教授如何构建有效的Agentic应用,其关键技能包括:

  1. 任务分解:将复杂任务拆解为可由LLM或工具执行的离散步骤。
  2. 严格评测与错误分析:通过端到端评测、组件级评测以及检查中间输出来驱动系统迭代和改进。
  3. 应用设计模式:利用反思、工具使用、规划和多代理协作这四种主要模式来组合构建模块,形成强大的工作流。

Agentic AI的主要优势在于能显著提升任务性能(甚至超过模型本身升级带来的增益)、通过并行处理加速任务执行,并得益于模块化设计便于组件的更换与升级。课程通过研究代理、发票处理、客户服务等多种应用实例,说明了Agentic AI的广泛适用性和巨大潜力,并指出掌握其构建技能是当前AI领域最重要和最有价值的技能之一。


分章节总结:

第一章:欢迎 (welcome)

  • 核心内容:课程引言与Agentic AI的价值定位。
  • 关键知识点
  • 术语起源:吴恩达提出“Agentic”一词来描述AI应用构建的重要趋势,但该术语后来被市场过度炒作。
  • 实际价值:尽管存在炒作,基于Agentic AI构建的真正有价值的应用正在快速增长。
  • 课程目标:展示构建Agentic AI应用的最佳实践,这将为开发者开启新的机会。
  • 应用场景:客户支持代理、深度研究、法律文档处理、医疗诊断建议等。
  • 核心技能: disciplined development process(严格的开发流程),特别是专注于评测(evals)和错误分析(error analysis)。

第二章:什么是Agentic AI (what-is-agentic-ai)

  • 核心内容:定义Agentic AI工作流及其优势。
  • 关键知识点
  • 与传统LLM使用的对比:传统方式是单次提示生成完整内容(如一篇论文),而Agentic工作流是多步骤、迭代式的过程(例如:先写大纲→研究→写初稿→反思修订)。
  • 工作流定义:一个基于LLM的应用程序执行多个步骤来完成一项任务。
  • 核心技能:学习如何将复杂任务(如写论文)分解为更小的步骤,由Agentic工作流逐步执行。
  • 运行示例:研究代理 (research agent),能够规划研究、搜索网页、综合发现、起草大纲、编辑审查并生成最终报告。

第三章:自主程度 (degrees-of-autonomy)

  • 核心内容:阐述Agentic系统的是指具有不同程度的自主性,而不是简单的是或者否。
  • 关键知识点
  • 术语选择:使用形容词“Agentic”是为了避免关于“何为真正Agent”的无谓争论,承认系统可以具有不同程度的自主性。

  • 自主性程度

    1. 低自主性代理:步骤序列由程序员预先硬编码确定,大部分自主性仅体现在LLM生成的文本上。

    2. 高自主性代理:LLM自主决定执行任务的步骤序列,甚至可以编写新函数或创建新工具。

    3. 半自主性代理:介于两者之间,可以做出一些决策、选择工具,但工具通常是预定义的。

  • 图示规范:用户输入、LLM调用、工具/软件调用。

第四章:Agentic AI的优势 (benefits-of-agentic-ai)

  • 核心内容:详细说明使用Agentic工作流带来的主要好处。
  • 关键知识点
  • 1. 性能提升:数据表明,在编码基准测试(Human Eval)中,将GPT-3.5置于Agentic工作流中,其性能提升幅度甚至超过了从GPT-3.5到GPT-4的模型代际提升。

  • 2. 并行处理:可以并行执行某些任务(如同时下载多个网页),比人类顺序处理快得多。

  • 3. 模块化设计:允许轻松**更换或升级**工作流中的各个组件,如不同的LLM模型、搜索引擎、新闻搜索工具等。

第五章:Agentic AI应用 (agentic-ai-applications)

  • 核心内容:列举不同复杂度的Agentic AI应用实例。
  • 关键知识点
  • 相对简单的应用(有清晰流程):1)发票处理:PDF转文本 → LLM识别是否为发票并提取关键字段 → 更新数据库。2)基础客户订单查询:提取关键信息 → 查询订单数据库 → 起草回复(供人工审核)。

  • 更具挑战性的应用(步骤不预先确定):1)通用客户服务代理:需要LLM自行规划步骤序列(如查询库存、验证购买记录、检查退货政策)。

  • 前沿研究领域:1)计算机使用代理:代理使用Web浏览器自主导航网站以完成复杂任务(如查询航班)。目前仍不可靠,但是重要的未来发展方向。

  • 应用难度因素:1)较易:有清晰的逐步流程、仅处理文本。2)较难:步骤未知需实时规划、需要处理多模态输入(声音、视觉等)。

第六章:任务分解 (task-decomposition)

  • 核心内容:讲解如何将复杂任务分解为可由Agentic工作流执行的离散步骤。
  • 关键知识点
  • 分解方法:反思人类如何执行该任务,并将其分解为多个步骤。
  • 可行性检查:对每个分解出的步骤,问自己:“这个步骤能否通过LLM、一段代码、一个API调用或一个工具来实现?”
  • 迭代过程:初始分解 → 实施并评测结果 → 若结果不佳,则进一步分解有问题的步骤。
  • 构建模块:1)AI模型:LLMs/LMMs、专用AI模型(如PDF转文本)。2)软件工具:各种API(网络搜索、天气、邮件)、信息检索工具(数据库、RAG)、代码执行工具。

第七章:评测 (evaluation-agentic-ai-(evals))

  • 核心内容:强调评测(Evals)和错误分析对于构建有效Agentic工作流的关键作用。
  • 关键知识点
  • 核心重要性:进行严格评测的能力是区分高效与低效开发者的关键。

  • 评测方法:1)发现问题:先构建工作流,然后手动检查其输出,找出不满意之处。2)客观指标评测:对于明确的标准(如“是否提及竞争对手”),可以编写代码自动检查。3)LLM作为裁判:对于更主观的标准(如“文章质量”),可以使用另一个LLM来评测输出。

  • 评测类型:1)端到端评测:衡量整个代理的最终输出质量。2)组件级评测:衡量工作流中单个步骤的输出质量。

  • 错误分析:检查中间输出(痕迹)以找出改进点。

第八章:Agentic设计模式 (agentic-design-patterns)

  • 核心内容:介绍构建Agentic工作流的四种关键设计模式。
  • 关键知识点
  • 1. 反思:让LLM检查自己的输出(或结合外部反馈,如代码运行错误)并进行改进。可以扩展到多代理协作,例如一个“编码代理”和一个“评价代理”。
  • 2. 工具使用:为LLM提供可调用的函数(工具),如网络搜索、代码执行、数据库查询、与生产力应用交互等,极大地扩展其能力。
  • 3. 规划:LLM自主决定完成任务所需的步骤序列(通常是API调用序列)。更难控制,但有时能产生出色结果。
  • 4. 多代理协作:模拟一个由多个具备不同角色的代理(如研究员、营销员、编辑)组成的团队,协作完成复杂任务。更难控制,但可能产生更好的结果。

最近这几年,经济下行,IT行业面临经济周期波动与AI产业结构调整的双重压力,很多人都迫于无奈,要么被裁,要么被降薪,苦不堪言。
但我想说的是一个行业下行那必然会有上行行业,目前AI大模型的趋势就很不错,大家应该也经常听说大模型,也知道这是趋势,但苦于没有入门的契机,现在他来了,我在本平台找到了一个非常适合新手学习大模型的资源。
[大家想学习和了解大模型的,可以点击这里前往查看]

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐