蚂蚁:LLM原子思维强化学习框架
如何改进深度研究模型在复杂问题求解中的表现,尤其是在涉及多步骤推理与信息检索的任务?论文提出了一种新颖的强化学习框架Atom-Searcher,通过细粒度的原子思维奖励机制,显著提升了深度研究任务的性能。

📖标题:Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
🌐来源:arXiv, 2508.12800
🌟摘要
大型语言模型 (LLM) 表现出显着的解决问题能力,但由于静态内部知识,难以处理复杂的任务。Retrieval-Augmented Generation (RAG) 增强了对外部信息的访问,但由于刚性工作流程,多跳推理和战略搜索仍然有限。代理深度研究的最新进展使LLM能够自主推理、搜索和合成信息。然而,目前依赖基于结果的强化学习 (RL) 的方法面临着梯度冲突和奖励稀疏性等关键问题,限制了性能提升和训练效率。为了解决这些问题,我们首先提出了一种新颖的 LLM 思维范式 Atomic Butter,它将推理分解为细粒度的功能单元。这些单元由推理奖励模型 (RRMs) 监督,该模型为细粒度指导提供原子思维奖励 (ATR)。在此基础上,我们提出了一种新的集成 Atom-Searcher 代理深度研究的 RL 框架 Atom-Searcher。Atom-Searcher 使用受课程启发的奖励计划,提前优先考虑过程级 ATR 并过渡到结果奖励,加速有效推理路径的收敛性。七个基准的实验表明,与最先进的基准相比有一致的改进。关键优势包括:(1)原子搜索器在测试时缩放计算。(2) Atomic Butter 为 RRM 提供监督锚点,弥合了深度学习任务和 RRM。(3) Atom-Searcher 表现出更可解释的、类人的推理模式。
🛎️文章简介
🔸研究问题:如何改进深度研究模型在复杂问题求解中的表现,尤其是在涉及多步骤推理与信息检索的任务?
🔸主要贡献:论文提出了一种新颖的强化学习框架Atom-Searcher,通过细粒度的原子思维奖励机制,显著提升了深度研究任务的性能。
📝重点思路
🔸引入原子思维概念,将推理过程分解为多个细粒度的功能单元,以指导大型语言模型(LLM)进行更清晰、更深入的推理。
🔸构建原子思维的数据集,并对政策模型进行监督微调,以增强其生成原子思维的能力。
🔸设计动态课程奖励聚合策略,将原子思维奖励与传统结果奖励结合,减轻梯度冲突并提升训练效果。
🔸将整体过程建模为有限时域的马尔可夫决策过程(MDP),明确状态、动作和奖励。
🔎分析总结
🔸Atom-Searcher在七个基准测试中,在领域内和跨领域任务上都显著超越了现有的最先进技术(SOTA)基线,表现出更好的一般化能力。
🔸Atom-Searcher在测试期间产生的响应长度和工具调用次数均显著高于基线模型,表明其在复杂任务上的探索和发现能力更强。
🔸实验分析显示,Atom-Searcher能够围绕原子思维进行更深层次的推理,从而展现出更人性化的认知行为,与传统方法相比具有明显优势。
💡个人观点
论文的通过原子思维的引入,不仅增强了模型在推理过程中的可解释性和深度,而且通过细粒度的奖励信号,优化了强化学习的策略更新过程。
🧩附录

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)