近年来,大型语言模型(LLM)在文本生成、对话系统等领域展现出强大能力,但它们有一个天生的短板:无法直接与现实世界互动。比如,你无法让一个LLM直接查询天气预报或预订机票,除非它能够调用外部工具(如API)。这种“工具增强”的能力让LLM从“纸上谈兵”升级为“实干家”,成为当前研究的热点。

然而,现有的工具调用框架(如ReAct)在处理简单任务时表现不错,一旦面对复杂任务——比如需要多个工具协同工作、步骤之间有依赖关系的情况——就显得力不从心。它们像是一个“走一步看一步”的导航系统,容易陷入局部最优,找不到全局最佳路径。

  • 论文:Beyond ReAct: A Planner-Centric Framework for Complex Tool-Augmented LLM Reasoning
  • 链接:https://arxiv.org/pdf/2511.10037

本文提出了一种全新的思路:将“规划”与“执行”分离,引入一个专门的“规划器”(Planner),负责在任务开始前就制定出一个全局执行计划,这个计划以“有向无环图”(DAG)的形式呈现,清晰标出工具之间的依赖关系。此外,作者还构建了一个大规模基准数据集ComplexTool-Plan,并设计了一套两阶段训练方法(SFT + GRPO),显著提升了模型在复杂任务中的表现。实验表明,该框架在多个基准测试中达到最先进水平,同时执行效率更高。

研究动机与问题定义

为什么需要“超越ReAct”?
ReAct是一种典型的“反应式”框架,模型在每一步决定下一步该调用什么工具。这种方式在简单任务中有效,但在复杂任务中容易“只见树木不见森林”。例如,如果任务需要先查询A工具的结果,再根据结果选择调用B或C工具,ReAct可能会在某个步骤选错工具,导致后续全盘皆输。这就是所谓的“局部优化陷阱”。

复杂任务的挑战
复杂任务通常涉及多个工具,且工具之间存在复杂的依赖关系。例如,“查询北京明天天气,如果下雨就推荐室内活动,否则推荐户外景点”需要调用天气API、活动推荐API等,并且步骤之间有条件判断。这种任务天然适合用DAG来表示,其中节点是工具,边是依赖关系。

问题形式化
作者将任务规划定义为一个“结构化预测问题”:给定用户查询 和工具集 ,模型需要生成一个DAG执行计划 ,其中 是选中的工具, 是工具之间的依赖边。目标是训练一个模型 ,使其生成的计划 的效用 最大化。

方法论详解

整体框架:Plan-Execute范式

本文框架的核心是将规划与执行分离:

  • Planner:负责将用户查询转换为DAG计划。
  • Executor:按照DAG顺序并行执行工具调用。

这种设计使得Planner可以专注于全局优化,而不被执行细节干扰。

ComplexTool-Plan基准构建

由于缺乏训练数据,作者设计了一个三阶段自动化流程来生成高质量的训练数据:

  1. 工作流生成:使用强LLM(如DeepSeek-V3)根据工具库生成复杂DAG计划。
  2. 查询逆向工程:根据生成的DAG,反向推导出用户可能提出的自然语言查询。
  3. 意图分析与重规划:对查询进行再规划,确保生成的DAG与原始意图一致,保证数据质量。
两阶段训练方法
  1. 监督微调(SFT)
    使用生成的训练数据 对模型进行初始化,最小化负对数似然损失:

    这里, 是真实DAG,模型学习如何根据查询 和工具集 生成正确计划。

  2. 强化学习(GRPO)
    SFT后,作者使用Group Relative Policy Optimization(GRPO)进行策略优化。关键在于设计了一个分层奖励函数,对生成计划 进行多维度评估:

    语法错误存在环节点不连通

    其中:

    这个函数像一个“严格考官”,先检查致命错误(如循环依赖),再评估细节正确性。

  • :奖励边级别的结构正确性。
  • :如果计划与真实DAG完全一致,给予额外奖励。

实验设计与结果分析

数据集介绍
  • ComplexTool-Plan:包含4,535个工具API,任务分为Easy/Medium/Hard三个难度级别。Hard任务工具选择更多,依赖更复杂。
  • StableToolBench:用于端到端评估,测试模型在真实场景中的工具调用能力。

基线方法
  • 专有模型:GPT-4o、Claude-3.7等,直接生成DAG计划。
  • 开源框架:ReAct、DFSDT、LLMCompiler等。
评估指标
  • 节点级性能:工具选择的准确率、召回率、F1分数。
  • 边级性能:依赖关系预测的准确率。
  • DAG精确匹配(EM):整个DAG是否完全正确。
  • 端到端指标:任务解决率(SoPR)和胜率(SoWR)。
关键结果

RQ1:RL是否比SFT更强?
是的。在Hard任务上,Qwen3-8B模型的DAG精确匹配从SFT的0.295提升到SFT+RL的0.319,相对提升8.1%。RL能纠正SFT难以捕捉的结构错误。

RQ2:模型越大越好吗?
是的。模型规模与性能正相关,且大模型在复杂任务中表现更稳健。例如,从Easy到Hard任务,Qwen3-8B的准确率下降60.3%,而Qwen3-1.7B下降71.2%。

RQ3:端到端效果和效率如何?

  • 效果:Qwen3-8B在StableToolBench上平均SoPR达59.8%,超过GPT-4(ReAct)的48.2%。
  • 效率:平均仅需2.29步完成任务,优于其他方法(如DTA-Llama的2.48步)。

讨论与创新点总结

创新点

  1. 全局规划取代局部优化:通过DAG计划避免ReAct的“短视”行为。
  2. 并行化潜力:DAG中无依赖的工具可以并行执行,提升效率。
  3. 高质量基准与训练方法:ComplexTool-Plan填补了复杂规划评估的空白,SFT+GRPO训练策略系统化提升模型能力。

实际价值
该框架适用于需要多工具协同的复杂场景,如智能客服、自动化工作流、多模态任务处理等。其高效性使其在资源受限环境中也具有应用潜力。

局限性

  • 非迭代设计:一旦计划错误,无法中途修正。
  • 对Planner模型容量要求高,小模型容易“奖励黑客”(只避免惩罚而不真正解决问题)。

结论与未来展望

本文提出了一种以Planner为中心的工具增强LLM框架,通过DAG全局规划、ComplexTool-Plan基准和SFT+GRPO训练方法,显著提升了复杂任务的处理能力。实验证明,该框架在规划质量和端到端效率上均达到最先进水平。

未来工作可能包括:

  • 引入迭代机制,允许Planner根据执行反馈调整计划。
  • 扩展至多模态任务,如图像、语音工具的组合调用。
  • 探索更轻量化的Planner模型,降低部署成本。

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐