强化学习增强LLM搜索新范式!商汤提出StepSearch,分步监督提升多跳推理能力
近年来,大型语言模型(LLMs)在问答任务中表现出色,但解决复杂问题时在多跳推理方面仍有不少挑战。传统方法尝试使用强化学习(RL)来优化搜索策略,使模型在静态 RAG 范式的基础上学会更好地检索和整合外部知识 。然而,现有的**搜索-强化学习(Search-RL)**范式多数只基于**最终答案**设置奖励,在中间查询和多步检索过程中缺乏细粒度的监督,难以应对复杂多跳推理中固有的步骤依赖性问题。
近年来,大型语言模型(LLMs)在问答任务中表现出色,但解决复杂问题时在多跳推理方面仍有不少挑战。传统方法尝试使用强化学习(RL)来优化搜索策略,使模型在静态 RAG 范式的基础上学会更好地检索和整合外部知识 。然而,现有的搜索-强化学习(Search-RL)范式多数只基于最终答案设置奖励,在中间查询和多步检索过程中缺乏细粒度的监督,难以应对复杂多跳推理中固有的步骤依赖性问题。
针对上述问题,商汤科技联合南京大学 、 深圳大学提出了新的Search-RL框架StepSearch。它引入逐步近端策略优化(Step-wise Proximal Policy Optimization, StePPO)算法,对每一步搜索都进行监督并给与奖惩,使用token级的信息奖励和冗余惩罚来增强PPO,能够促进算法收敛,并增加检索的忠实度和问答的准确性。

-
论文标题:
StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization
-
论文链接:https://arxiv.org/pdf/2505.15107v1
01
方法
StepSearch的强化学习奖励函数设置,除了传统方法常用的格式要求和最终答案奖励之外,还着重引入了针对搜索关键词的奖励机制,从而激励模型生成更具信息量的查询请求。与传统PPO不同,StePPO将每次任务细分为思考、搜索、回答阶段,并分配token级奖励。每个搜索步骤都有信息奖励和冗余惩罚,这种精准的、过程感知的监督机制迫使模型将多跳查询分解为明确的搜索子任务,动态调整检索策略,并且更高效地整合检索到的依据信息,从而在复杂推理基准测试中实现更快的收敛和更高的准确率。

信息奖励:考察模型检索到的文档,评价其对于减少当前目标答案的不确定性的贡献,以此来量化每个搜索动作的效用。
冗余惩罚:在搜索阶段的监督过程中,重复的查询不仅浪费资源,还可能会放大幻觉。为此,需要记录下检索历史,对于结果重叠的冗余查询给予惩罚。

使用 GPT-4o 对 MuSiQue 数据集进行增强,构建了一个全新的问答数据集。该数据集不仅提供最终答案,**还完整包含了“问题—子问题—信息跳跃路径”的推理轨迹。**这种细粒度的标注方式使得模型在训练过程的每一个搜索步骤都能进行评估与优化。
02
评估
使用Qwen2.5模型在HotpotQA、MuSiQue、Bamboogle等四个多跳问答数据集上使用不同检索数据库进行测试。可以发现,**使用StepSearch的模型性能普遍优于当前主流的Search-RL方法,**在3B参数量的模型上提升了11.2%,在7B模型上也提升了4.2%。此外,StepSearch对跨领域的知识库适应性强,仅****需少量检索数据和训练数据即可超越更大数据集训练的模型,这说明相比一味堆数据,用对方法、用对监督信号,更能挖掘模型的潜力。

将StePPO方法与GRPO和PPO进行了比较。结果和训练曲线表明,StePPO在更少的轮次中以更短的输出实现了更高的准确率,拥有最快的收敛速度和峰值有效性,最终搜索****结果也优于PPO和GRPO。


03
局限性
StepSearch的评估仅限于纯文本问答,该方法对多模态输入(例如图像、音频)以及跨范式边界任务的泛化效果如何仍有待研究。此外,StepSearch仅在相对较小的参数规模下进行了测试,扩展到更大的模型可能会加剧奖励崩溃和训练动态不稳定等问题,因此需要新的稳定性和正则化策略。
StepSearch目前仅使用来自MuSiQue的19k训练数据进行训练。尚不清楚当使用与Search-R1相同规模的训练数据时,StepSearch的表现会如何,未来的工作需要解决这些差距,以实现真正可泛化、稳健且可扩展的检索增强智能体。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)