ReAct 范式详解：让 Agent 学会“思考”而不仅是“回答”

大阳阳544

184人浏览 · 2026-06-02 19:31:37

大阳阳544 · 2026-06-02 19:31:37 发布

ReAct Prompting范式全解析：从原理到实战，让LLM Agent突破“空想”与“盲答”的边界

附完整的Python代码实现、电商查询增强与数学推理双案例对比

第一部分：引言与基础 (Introduction & Foundation)

1. 为什么你必须搞懂ReAct？（替代生硬的“引人注目的标题”过渡到核心问题）

在过去的2023-2024年，大语言模型（Large Language Models, LLMs）无疑是整个科技行业最炙手可热的话题——从GPT-3.5、GPT-4的横空出世，到Claude、Llama、Qwen等国内外开源模型的百花齐放，LLMs已经从实验室的“黑箱玩具”变成了各行各业的“生产力工具雏形”。

但如果你曾经用过哪怕稍微复杂一点的LLM应用（比如“帮我订明天上午10点从北京飞往上海虹桥，下午5点前能回来，还要给我带一份虹桥机场T2的小杨生煎推荐链接”），你肯定遇到过这两种让人抓狂的问题：

1.1 LLM的“两大致命缺陷”：空想（Hallucination）与盲答（No External Knowledge）

第一种问题，空想（幻觉）：当你问的问题超出了LLM的“预训练知识截止日期”，或者需要非常具体、实时、甚至是需要查特定数据库/系统才能得到的信息时，LLM往往不会承认自己“不知道”，而是会一本正经地编造看似合理的虚假数据。比如你问“2024年6月15日北京到上海虹桥的国航航班有哪些？”，如果GPT-4没有实时联网插件（哦不对现在插件已经迁移到GPT-4o了），它可能会编出CA1234、CA5678这样根本不存在的日期或航班号，甚至可能会给你一个已经倒闭的小杨生煎分店地址——这对于需要准确性、可信度、可追溯性的严肃应用场景（比如医疗问诊辅助、金融数据分析、企业内部知识库问答）来说，完全是不可接受的。

第二种问题，盲答（信息孤岛）：即使你给LLM装了一个“搜索插件”，让它能查到外部信息，但很多时候LLM只会“不假思索”地把所有搜索结果堆给你，或者在推理过程中完全割裂“思考（Reasoning）”和“行动（Action）”——比如先把所有可能的航班都搜出来，但根本不会先思考“用户要求明天上午10点左右出发，下午5点前回来，那么去程应该在10点±30分钟，飞行时间大约2小时，到达虹桥T2应该是12点±30分钟，然后用户可以自由活动到下午3点左右，回程应该在3点±30分钟，到达北京首都机场/大兴机场应该在5点±30分钟，符合要求的航班是哪些？”，而是直接搜所有明天的京沪航班，浪费大量的token（提示词/生成文本的计价单位，现在一个GPT-4o的输出token大概是0.00001美元，听起来便宜，但如果每次搜索都堆100个航班，每天1000个用户，每月就要花3000美元以上，这对于中小团队来说是一笔不小的开支），而且返回的结果也非常杂乱，用户根本找不到自己想要的。

1.2 ReAct的横空出世：给Agent安上“脑”和“手”

就在大家都在为LLM的这两大缺陷头疼的时候，2022年10月，来自普林斯顿大学、谷歌研究院、Meta AI的研究团队联合发布了一篇名为《ReAct: Synergizing Reasoning and Acting in Language Models》的论文——这篇论文提出的ReAct Prompting（Reasoning + Acting的缩写，中文可译为“思考-行动”协同提示范式），首次在统一的提示词框架下，让LLM同时具备了“逻辑推理能力”和“调用外部工具获取/执行信息的能力”，成功突破了“空想”与“盲答”的边界，为后来的所有LLM Agent（比如AutoGPT、LangChain Agent、微软的Copilot Studio Agent）奠定了核心的理论基础和工程实现思路。

根据论文中的实验数据，在HotPotQA（多跳问答数据集，需要结合多个外部信息源才能回答）上，ReAct的准确率比当时最先进的“纯推理提示词（Chain-of-Thought, CoT）”高出了15.1%，比“纯行动提示词（Act-only）”高出了21.3%；在ALFWorld（交互式文本游戏数据集，需要在虚拟世界里执行一系列操作才能完成任务）上，ReAct的任务完成率比当时最先进的Act-only方法高出了34.6%，比纯CoT方法高出了48.7%——这些数据足以证明ReAct的强大威力。

1.3 读完这篇文章你能获得什么？

这篇文章是我作为一名深耕LLM Agent开发2年多的资深软件工程师，结合《ReAct》原论文、LangChain的ReAct Agent源码、以及我自己在电商查询增强、企业内部知识库问答、数学推理辅助三个实际项目中的经验，写成的一篇**“从0到1、从原理到实战、从理论到落地”**的完整技术博客。读完这篇文章，你将：

彻底搞懂ReAct的核心原理：包括什么是Reasoning、什么是Acting、为什么要把它们结合起来、ReAct和CoT/Act-only/Reflection（反思）等其他提示词范式的区别是什么；
掌握ReAct的数学模型和算法流程：虽然ReAct的论文里没有用到太复杂的数学公式，但我会用通俗易懂的方式把它的逻辑形式化，并用Mermaid流程图把它的完整算法流程画出来；
从零开始用Python实现一个完整的ReAct Agent：不用任何第三方框架（比如LangChain），只用Python的标准库和OpenAI的API，就能写出一个能搜索Google、查询Wolfram Alpha、甚至能查你本地CSV文件的ReAct Agent——这能让你彻底理解ReAct Agent的底层逻辑，而不是只会调用LangChain的API；
通过两个完整的实际案例验证ReAct的效果：一个是电商查询增强案例（帮用户查京东上的商品信息、价格、库存、用户评价，并给出购买建议），另一个是数学推理辅助案例（帮高中生解复杂的几何题、代数题，并给出完整的解题步骤）——我会对比ReAct、CoT、Act-only三种方法在这两个案例中的表现；
掌握ReAct Agent的最佳实践和常见问题解决方案：比如如何设计好的提示词模板、如何处理工具调用失败的情况、如何防止LLM陷入无限循环、如何优化ReAct Agent的token消耗和响应速度；
了解ReAct的行业发展历史和未来趋势：比如从最早的Act-only到CoT，再到ReAct，再到现在的Reflection-ReAct、Self-Consistency-ReAct、多Agent ReAct，ReAct范式的演变历程是怎样的？未来ReAct会朝哪个方向发展？

2. 目标读者与前置知识 (Target Audience & Prerequisites)

2.1 目标读者

这篇文章适合以下三类读者：

有一定Python编程基础，但对LLM Prompting或LLM Agent不熟悉的初级软件工程师：你可以通过这篇文章快速入门LLM Agent开发，并掌握ReAct这个核心范式；
已经用过LangChain等框架做过一些简单的LLM应用，但想深入理解ReAct底层逻辑的中级软件工程师：你可以通过这篇文章从零开始实现一个ReAct Agent，摆脱对第三方框架的依赖；
对LLM Agent感兴趣的产品经理、数据科学家、甚至是高中生：只要你有一定的Python基础（或者愿意花1-2小时学一下Python的基本语法），你就能看懂这篇文章的大部分内容，并通过实际案例体会到ReAct的威力。

2.2 前置知识

为了更好地理解这篇文章，你需要具备以下基础知识或技能：

Python编程基础：熟悉Python的基本语法（变量、函数、类、循环、条件判断）、标准库（比如requests、json、random——虽然random在这里用得不多）、以及如何用Python调用第三方API；
对大语言模型（LLMs）有基本的了解：知道什么是LLM、什么是预训练、什么是提示词（Prompt）、什么是Completion（生成文本）、什么是token、什么是上下文窗口（Context Window）；
（可选，但强烈推荐）有OpenAI API的访问权限：因为我们在实战部分会用到OpenAI的GPT-3.5-turbo或GPT-4o作为核心LLM——如果你没有OpenAI API的访问权限，也可以用国内的开源模型（比如Qwen2-7B-Instruct、Llama3-8B-Instruct）替代，我会在文章的“环境准备”部分给出具体的替代方案；
（可选，但强烈推荐）有LangChain的基本使用经验：虽然我们在实战部分会从零开始实现一个ReAct Agent，但如果你用过LangChain的ReAct Agent，你会更容易理解我们的实现思路。

3. 文章目录 (Table of Contents)

为了方便你快速导航到感兴趣的部分，我把这篇文章的完整目录列在下面：

第一部分：引言与基础 (Introduction & Foundation)

为什么你必须搞懂ReAct？（替代生硬的“引人注目的标题”过渡到核心问题）
1.1 LLM的“两大致命缺陷”：空想（Hallucination）与盲答（No External Knowledge）
1.2 ReAct的横空出世：给Agent安上“脑”和“手”
1.3 读完这篇文章你能获得什么？
目标读者与前置知识 (Target Audience & Prerequisites)
2.1 目标读者
2.2 前置知识
文章目录 (Table of Contents)

第二部分：核心内容 (Core Content)

问题背景与动机 (Problem Background & Motivation)
4.1 从“工具调用前置”到“纯推理提示词”：LLM应用的早期探索
4.1.1 工具调用前置（Tool Call Preconditioning）：Act-only的雏形
4.1.2 思维链（Chain-of-Thought, CoT）：让LLM学会“空想”逻辑
4.1.3 工具调用前置+纯推理提示词的局限性
4.2 ReAct的核心动机：为什么要“思考-行动”协同？
4.3 核心关键词定义（提前统一认知，避免后续混淆）
核心概念与理论基础 (Core Concepts & Theoretical Foundation)
5.1 ReAct的核心定义与逻辑框架
5.2 ReAct的核心要素组成（概念结构拆解）
5.2.1 要素1：初始任务/问题（Task/Question）
5.2.2 要素2：思考（Reasoning, Thought）
5.2.3 要素3：行动（Acting, Action）
5.2.4 要素4：行动工具（Action Tools）
5.2.5 要素5：观察（Observation）
5.2.6 要素6：循环终止条件（Termination Condition）
5.2.7 要素7：最终答案（Final Answer）
5.3 ReAct与其他主流提示词范式的对比（核心属性维度Markdown表格）
5.4 ReAct的概念关系图（Mermaid ER实体关系图 + Mermaid交互关系图）
5.5 ReAct的数学模型（逻辑形式化，Latex公式）
环境准备 (Environment Setup)
6.1 软件与库的安装清单
6.2 OpenAI API的配置（国内用户可用Qwen2/Llama3替代）
6.2.1 注册OpenAI账号并获取API Key
6.2.2 国内用户的替代方案：使用阿里云通义千问API（Qwen2）
6.2.3 国内用户的替代方案：使用本地部署的Llama3-8B-Instruct
6.3 工具API的配置（Google搜索、Wolfram Alpha、本地CSV查询）
6.3.1 Google Custom Search JSON API的配置
6.3.2 Wolfram Alpha API的配置
6.3.3 本地CSV查询工具的准备（提前准备好一个电商商品CSV文件）
从零开始用Python实现一个完整的ReAct Agent（分步实现）
7.1 第一步：定义工具基类（BaseTool）与工具注册机制
7.2 第二步：实现具体的工具类（GoogleSearchTool、WolframAlphaTool、CSVQueryTool）
7.3 第三步：定义LLM调用基类（BaseLLM）与具体的LLM调用类（OpenAILLM、QwenLLM）
7.4 第四步：设计ReAct的提示词模板（Prompt Template）
7.5 第五步：实现ReAct Agent的核心循环逻辑
7.6 第六步：实现结果格式化与循环终止判断
关键代码解析与深度剖析（Key Code Analysis & Deep Dive）
8.1 为什么要定义工具基类？（设计模式：策略模式的应用）
8.2 提示词模板的设计技巧（Few-Shot Learning、结构化输出约束）
8.3 核心循环逻辑的设计（状态机模式的应用、无限循环的防止）
8.4 工具调用失败的处理机制（重试、降级、用户提示）

第三部分：验证与扩展 (Verification & Extension)

结果展示与验证（Results & Verification）
9.1 案例一：电商查询增强（查询京东iPhone 15 Pro Max的信息）
9.1.1 实验设计（对比ReAct、CoT、Act-only三种方法）
9.1.2 实验结果展示（截图、API返回示例、准确率对比）
9.1.3 实验结果分析
9.2 案例二：数学推理辅助（解一道复杂的高考几何题）
9.2.1 实验设计（对比ReAct、CoT两种方法）
9.2.2 实验结果展示（截图、解题步骤对比、准确率对比）
9.2.3 实验结果分析
性能优化与最佳实践（Performance Tuning & Best Practices）
10.1 性能优化：如何降低ReAct Agent的token消耗？
10.1.1 优化提示词模板（去除冗余内容、压缩Few-Shot Examples）
10.1.2 优化工具调用（减少不必要的工具调用、压缩观察结果）
10.1.3 使用 cheaper 的LLM做中间思考，使用更贵的LLM做最终答案生成
10.2 性能优化：如何提高ReAct Agent的响应速度？
10.2.1 并行化工具调用（如果允许的话）
10.2.2 使用流式输出（Stream）
10.2.3 本地缓存工具调用结果
10.3 最佳实践：如何设计好的ReAct提示词模板？
10.3.1 明确要求LLM使用结构化的格式输出（Thought、Action、Action Input、Observation、Final Answer）
10.3.2 提供足够的、多样化的Few-Shot Examples
10.3.3 明确告诉LLM循环终止的条件
10.3.4 明确告诉LLM如果遇到问题应该怎么做（比如工具调用失败、信息不足）
10.4 最佳实践：如何选择合适的工具？
10.4.1 工具的粒度要适中（不能太粗，也不能太细）
10.4.2 工具的描述要清晰、准确、具体
10.4.3 工具的输入输出格式要标准化
常见问题与解决方案（FAQ / Troubleshooting）
11.1 LLM不按照结构化的格式输出怎么办？
11.2 LLM陷入无限循环怎么办？
11.3 LLM调用工具的参数错误怎么办？
11.4 LLM生成的最终答案不准确怎么办？
11.5 LLM的token消耗太高怎么办？
未来展望与扩展方向（Future Work & Extensions）
12.1 ReAct的未来发展趋势（从单Agent到多Agent、从思考-行动到思考-行动-反思-改进）
12.2 ReAct的扩展方向一：Reflection-ReAct（反思-思考-行动）
12.3 ReAct的扩展方向二：Self-Consistency-ReAct（自洽-思考-行动）
12.4 ReAct的扩展方向三：Multi-Agent ReAct（多Agent协同思考-行动）
12.5 ReAct的扩展方向四：Knowledge-Enhanced ReAct（知识增强-思考-行动）

第四部分：总结与附录 (Conclusion & Appendix)

总结（Conclusion）
参考资料（References）
附录（Appendix）
15.1 完整的Python代码实现（GitHub仓库地址）
15.2 完整的提示词模板（Few-Shot Examples included）
15.3 电商商品CSV文件示例
15.4 高考几何题示例
15.5 国内LLM API的配置指南（Qwen2、Llama3、ChatGLM3）

本章小结（第一部分小结）

第一部分我们主要做了三件事：
第一，通过LLM的“两大致命缺陷”（空想与盲答）引出了ReAct的核心价值——让LLM同时具备“逻辑推理能力”和“调用外部工具的能力”；
第二，明确了这篇文章的目标读者（初级/中级软件工程师、产品经理、数据科学家、高中生）和前置知识（Python编程基础、LLM基本了解、可选的OpenAI API访问权限）；
第三，列出了这篇文章的完整目录，方便你快速导航到感兴趣的部分。

接下来，我们将进入第二部分的核心内容——首先是“问题背景与动机”，我们会深入探讨LLM应用的早期探索（工具调用前置、纯推理提示词）的局限性，以及ReAct的核心动机。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw - 开源个人AI Agent框架详细介绍

OpenClaw（最初名为 Clawdbot，曾短暂更名为 Moltbot，2026 年 1 月底定名为 OpenClaw）是由奥地利开发者 Peter Steinberger 创建的开源个人 AI Agent 框架。项目的 Logo 是一只龙虾（🦞），因此在中文科技圈被昵称为"龙虾"。OpenClaw 的定位不是编码工具，而是一个具有高度系统权限的个人 AI 代理——它能运行 Shell 命令

智能体开发者社区

绝了！只需输入需求，这几款AI论文软件自动生成毕业论文初稿！

毕业季论文焦虑？关键词输入，一键自动生成图文并茂的毕业论文，从选题到定稿全流程搞定！千笔AI、ThouPen、豆包、DeepSeek、元宝这五款 AI 论文工具实测上线，自动配图、

智能体开发者社区

ChatGPT 的 Embedding和Claude的 Embedding 转化结果一样吗

OpenAI 使用自研 BPE 分词器；Anthropic 使用自研 SentencePiece 分词；同一个中文 / 英文句子拆分出的 token 不同，模型提取语义特征的起点就不同。把同一句话交给 OpenAI 和 Claude 生成向量，好比：同一个人，分别用两套完全不同的测绘规则测绘两套独立星球的坐标，坐标数字毫无关联，没法放在一张地图上对比远近。两家对向量的缩放、标准化处理逻辑不统一，