一文搞懂AI智能体工程本质:ReAct模式工作原理解析!
文章介绍了AI-Agent的工程本质,即通过给传统AI模型添加规则和工具,使其从被动问答工具转变为能自主规划任务的AI助手。重点解析了ReAct模式的工作流程:思考、行动、观察、结果,形成推理与行动的循环。通过实例展示了AI-Agent如何利用工具扩展能力边界,自主完成目标任务,实现了从"被动工具"到"AI助手"的范式转移。
我见诸多文章在聊AI-Agent(智能体)的时候,要么理论化程度深,要么直接上代码、上成品,使人不易直观地理解其工程本质。我尝试着站在普罗大众的视角来直接揭示AI-Agent的本质。
AI-Agent是什么?
传统的AI模型,它是被动的,它拥有各种知识,就像百科全书一样,你问它一句,它答你一句,俨然是一种知识问答工具。
AI-Agent是我们给这个传统的AI模型加上“做事规则”(如:CoT、ReAct等)和“工具”(如:记忆、执行等工具),当它被赋予某个任务后,能够自主地规划并使用这些工具,能够通过工具的反馈再去重新规划行动,从中不断思考和调整,直到目标达成或失败。
这是一种从“被动工具”到“AI助手”的范式转移。
这是传统AI和AI-Agent的对比图:
- 第一张是一问一答,AI提供方法让人去执行;
- 第二张是下发任务,AI-Agent自动完成任务,无需人去参与;


AI-Agent是一个以大语言模型为“认知核心”(大脑),通过工具(手脚、眼睛等器官)来扩展其感知和行动边界,在目标驱动下能够与环境进行持续交互并自主完成任务的 “意向系统” 。
AI-Agent的常见运行模式有多种: ReAct,CoT, ToT,Plan-And-Execute,MultiAgents 等。
本文以ReAct模式去切入,一步步地拆解AI-Agent是如何工作的。
ReAct是什么?
Reasoning + Acting, 将推理和行动结合起来形成一个循环。
理论指导在这:https://react-lm.github.io/

ReAct工作流程有4个部分:
- 思考(thought),大模型 根据‘任务目标’或‘观察’来推理当前形势,决定下一步是‘行动’还是‘结果’。
- 行动(action),大模型 下达具体的工具指令让AI-Agent能够识别并执行。
- 观察(observation),AI-Agent 执行工具后会反馈结果给大模型,让其继续思考。
- 结果(final_answer),大模型 认为目标已经达成或失败,生成结果,结束这个任务。

ReAct模式的工程本质
我直接通过会话的方式来揭示其技术工程的本质。
我使用的AI大模型是 kimi,
https://www.kimi.com/
这是提示词
你需要穿插"thought, action, observation,final_answer"这些步骤去解决任务:
-
thought用于推理当前形势,若最终答案可以确定,则进入final_answer步骤,否则进入action步骤;
-
action用于主动向用户发起请求,你会决定出工具,用户会调用工具;
-
observation是来自用户的答复,你需要观察和分析这个答复,并进入thought步骤。
-
final_answer是最终答案,到达这个步骤则问题已经解决。
注意:
-
当你遇到模糊的问题,如,不清楚操作系统版本、命令行工具是否存在等情况,应该进入action步骤去决定出一个工具,从而让用户能够执行,之后你会得到一个来自用户的observation返回。
-
你会对observation的内容进行思考,继续进入thought步骤去推理当前形势,循环往复,直到得到最终答案。
-
当用户没有提出具体问题时,就只有1个thought的回答;否则每次回答必须会有两个内容:1个是thought,1个是action或final_answer。
输出格式要求:
所有步骤必须严格使用JSON的格式输出,当有超过1个输出时,使用list格式将json作为元素,按照顺序输出,JSON支持的关键字如下。
-
step_name, 步骤名称,字符串格式
-
raw_text, 原始内容,字符串格式
-
tool_call, 指定工具名,字符串格式
-
tool_args, 指定工具参数,JSON格式
可用工具:
- exec_cmd(cmd_string)
这是对话过程
输入提示词,AI按照我在提示词中定义的JSON格式输出了它的思考过程,等待我去提交任务。

输入任务,我请它转换一个视频文件到音频。此处及往下的交互,就是模拟的AI-Agent的交互方式。

AI对任务目标做出了思考,并采取了行动。它要调用命令判断相关的工具是否存在。
我模拟AI-Agent的执行结果,告诉AI这个工具存在,AI继续进行观察和思考。

AI经过思考,确定相关工具存在,并采取了行动。它要调用这个工具进行视频转换成音频的处理。
我模拟AI-Agent的执行结果,告诉AI执行完毕且执行成功。

AI经过思考,确定执行成功,做出最终回答,任务结束。
结语
本文通过直观的阐述去理解AI-Agent的工程本质。
一个能落地的AI应用,还有很多工程要做,从提示词工程到上下文工程,从传统AI到RAG、到AI-Agent、再到Multi-Agents。要突破的难点也会经常遇上,例如:上下文窗口的控制,AI应用的响应延迟太高,AI幻觉等。
AI时代变化很快,明年的AI工程或许又会大变样了。AI革命逐渐到来。
如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)