在这里插入图片描述

📖标题:Exploring Superior Function Calls via Reinforcement Learning
🌐来源:arXiv, 2508.05118

🌟摘要

函数调用能力对于在实际应用中部署大型语言模型至关重要,但目前的训练方法无法开发稳健的推理策略。监督微调产生依赖于表面模式匹配的模型,而标准的强化学习方法难以处理结构化函数调用的复杂动作空间。我们提出了一种新的强化学习框架——旨在通过基于战略熵的探索来增强群体相对策略优化——专门为函数调用任务量身定制。我们的方法解决了函数调用的三个关键挑战:策略学习过程中的探索不足、思维链生成缺乏结构化推理以及参数提取的验证不足。我们的两阶段数据准备管道通过迭代 LLM 评估和抽象语法树验证来确保高质量的训练样本。Berkeley Function Calling Leaderboard 上进行的大量实验表明,该框架在开源模型中实现了最先进的性能,总体准确率为 86.02%,在复杂多功能场景下比标准 GRPO 高出 6%。值得注意的是,我们的方法在代码预训练模型上显示出特别强大的改进,这表明结构化语言生成能力为函数调用任务中的强化学习提供了一个有利的起点。我们将发布所有代码、模型和数据集以使社区受益。项目在https://github.com/inclusionAI/AWorld

🛎️文章简介

🔸研究问题:如何提高大语言模型(LLM)在函数调用任务中的能力,以便更有效地生成正确的函数调用和处理复杂的参数选择问题。
🔸主要贡献:论文提出了一种新的增强型强化学习方法FunRL,通过熵增强的优势估计显著提升了LLM的函数调用能力。

📝重点思路

🔸引入熵增强的优势估计方法,以改进模型的链式思维过程,促进多样化的推理路径探索。
🔸采用双重数据准备管道,包括LLM评估和抽象语法树(AST)评估,以确保训练数据的高质量。
🔸设计二元奖励结构,强调输出的语义准确性和格式合规性,以提供精确的反馈信号。
🔸通过Group Relative Policy Optimization(GRPO)算法优化模型策略,并在强化学习框架下整合链式思维熵以鼓励探索。

🔎分析总结

🔸实验表明,FunRL在单轮工具调用任务中的准确率显著高于之前的GRPO方法,尤其是在实时场景中表现突出。
🔸FunRL在不同基准模型上实现了高达6%的准确率提升,证明了其在真实世界操作环境中的有效性。
🔸通过对训练过程中的KL散度的分析,表明引入链式思维熵的优势计算可以帮助模型更好地探索适合函数调用场景的思维模式。
🔸在数据准备的严格控制下,经过两阶段评估的高质量数据大幅提升了模型的稳定性和可靠性。

💡个人观点

论文利用链式思维熵的优势计算来解决函数调用中的探索与利用平衡问题,显著提高了LLM的函数调用能力和推理透明度,展示了代码预训练的模型在特定任务中的优势。

🧩附录

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐