DeepResearch
摘要 DeepResearch智能体是新一代能够自主上网搜索、整合信息的AI系统,代表从传统搜索向"提问-自动研究-结论"的范式转变。目前主要有两种技术路径:基于强化学习(RL)的端到端训练方案和基于提示词设计的模块化方案。RL方案通过真实网络环境训练模型掌握检索推理策略,具有更强的自主性和稳健性,如OpenAI DeepResearch、阿里通义DeepResearch等产品
DeepResearch
引言
当今 AI 领域出现了一类能够自主上网搜索、阅读资料并整理综合信息的 “深度研究”智能体。这类系统不再局限于单轮问答,而是可以模拟人类研究员,通过多轮检索和推理完成复杂课题的调研工作。2025年初,OpenAI 在官方更新中率先提出“Deep Research”概念,描述其为:“一个能够运用推理来综合大量在线信息、为你完成多步骤研究任务的智能体”。此后,多家科技公司和研究机构相继推出了自己的深度研究产品或开源项目,如 Google Gemini DeepResearch、OpenAI Deep Research、阿里巴巴通义 DeepResearch、Jina AI DeepSearch、Perplexity Deep Research 等。这些系统的出现标志着信息获取范式正从“关键词搜索 + 人工筛选”向“提出问题 → 自动深度研究 → 给出结论”跃迁。
目前主流的 DeepResearch 智能体实现大致可分为两种技术路径:
(1)基于强化学习或端到端策略训练的模型方案,通过在真实或模拟的网络环境中训练大型语言模型学会检索与推理策略;
(2)基于提示词设计、流程控制和工具链组合的方案,利用预训练语言模型搭配搜索等工具,以精心编排的提示词和多模块流程来实现深度研读与问答。本文将从两种路径的技术机制、关键组件入手,对比它们的优缺点、适用场景、部署难度以及在对齐性和安全性方面的考量,并分析当前典型产品/项目属于哪种方式。最后对未来技术趋势和可能的混合模式进行展望。
基于强化学习的 DeepResearch 模型实现
技术路径与核心机制
这种方法直接针对深度研究任务对模型进行专项训练,通常采用强化学习(Reinforcement Learning, RL)或有监督微调 + 强化学习的端到端方案,让模型在真实网络环境中通过多步试错习得检索和推理策略。其典型架构是在强化学习环境中把搜索引擎或浏览器封装为“工具”供模型调用,将模型生成的动作(如搜索查询)作用于环境并获取观测(如网页内容),再由模型继续决策,直至输出最终答案。训练过程中,设计奖励函数来引导模型。例如,可依据最终回答的正确性给予奖励;有的工作还引入对中间推理过程的评价机制,使模型不仅追求答案正确,也优化每一步检索/思考的质量。常用的RL算法包括基于策略优化的 PPO 或其改进(如 GRPO)来更新模型参数。通过大量端到端交互训练,模型逐渐学会何时需要查询、如何提出有效搜索词、怎样整合多源信息,以及在必要时回溯修正自己的认知路径。换言之,模型内部涌现出了类似 ReAct Agent 的自发检索-推理策略,不同之处在于这不是由人工提示硬编码的流程,而是模型经过强化学习真正学会的行为模式。
关键组件:
可交互的环境接口
通常包含网络搜索 API、网页阅读器等,让模型能像人在浏览器中那样搜索和获取信息。例如 Search-R1 框架将搜索引擎建模为环境的一部分,模型输出<search>查询词</search>即触发搜索,由环境返回<information>检索结果</information>供模型阅读。
策略模型(LLM)
通常从强大的基础模型出发(如数十亿参数级的预训练模型),针对 Agent 任务进行微调乃至重新训练。模型通过特殊的输出格式(例如 <think>、<search>标签)来表示思考内容和动作指令。
奖励与训练算法
决定模型学习何种行为。基本的做法是针对任务的最终结果(如回答的准确性)给予奖励信号,但仅靠最终奖励会面临奖励稀疏和信用分配不明的问题。因此一些研究引入细粒度的过程反馈,例如蚂蚁集团提出的 Atom-Searcher 框架,将模型的推理过程分解为若干“原子思维”单元,并由辅助的推理奖励模型(RRM)对每个步骤打分,形成中间监督信号。训练早期侧重这些过程级奖励,后期逐步过渡到结果奖励,从而缓解纯结果导向导致的梯度冲突,提高训练效率和策略质量。此外,为了稳定训练,有些实现会遮蔽搜索返回内容的梯度传播(避免模型记住网页文本)。还有的采用多智能体协作架构,如 DeepResearcher 引入专门的“浏览智能体”负责筛选网页相关性,以提高信息检索效率。
典型实例
| 产品 / 模型 | 机构 | 2025 年公开技术要点 | 开源 |
|---|---|---|---|
| OpenAI DeepResearch | OpenAI | 以 o3 为基础,端到端 RL 训练,原生掌握浏览、点击、回溯、多源交叉验证等动作 | 否 |
| Kimi Researcher | Moonshot AI | 完全端到端 RL 训练,模型内部一体完成记忆、工具调用、多步思维链 | 否 |
| 通义 DeepResearch | 阿里巴巴 | Agentic-CPT→SFT→GRPO-RL 全链路,token 级策略梯度+负样本过滤,30 B/3 B MoE 结构 | 是(模型+框架+数据) |
| Search-R1 | UIUC+UMass+Google Cloud | 3 B/7 B 小模型,用 RL 联合训练「搜索调用+推理」策略,真实引擎交互 | 是(开源框架) |
| DeepResearcher | 独立研究团队 | 真实网络环境端到端 RL,GRPO 算法,多智能体(主研究+浏览代理),F1 奖励 | 论文+代码公开 |
| Grok 4 Fast “Deep Research” | xAI | 双模式 MoE,端到端 RL 训练,集成实时搜索引擎,200 k token 上下文 | 否 |
2025年出现了多项基于RL的深度研究智能体成果。OpenAI Deep Research 是OpenAI基于 GPT-4 级别模型(内部称 O3)通过端到端强化学习训练的功能,在复杂的浏览和推理任务上展示出惊人的多步规划与实时信息应对能力。据OpenAI介绍,通过该训练,模型学会了自主规划和执行多步骤检索路径来查找所需数据,必要时还能回溯并对实时信息做出反应。虽然OpenAI的技术细节未公开,但社区很快出现了复现尝试。UIUC、UMass 等提出了 Search-R1 框架,使用3B和7B小模型结合搜索引擎进行RL训练,在多个数据集上性能比传统RAG方法提高了20%~41%,显示“小模型也能学会大思考”。Search-R1 模型可以主动调用搜索引擎、多轮交替推理,学习检索+推理的整体策略。其推理过程呈现出<think>→<search>→<information>→<think>→…→<answer>的循环模式,与人工提示设计的 ReAct agent 非常相似,但关键区别在于:该Agent何时搜索、何时思考完全是通过强化学习学会的,而不依赖人工提示规则。
国内方面,上海交大与人工智能研究院发布了 DeepResearcher,据称是全球首个在真实互联网环境中通过强化学习训练的研究型AI代理。DeepResearcher 强调抛弃封闭知识库的模拟环境,直接把AI扔进复杂开放的真实网络中训练,因此需要克服网络延迟、反爬虫等工程难题。该模型最终表现出人类设计者意想不到的高级智能行为,例如自动规划、交叉验证、反思和保持诚实等认知能力,在开放环境中展现出更强的稳健性。另一方面,工业界也开始推出大规模RL训练的开源模型。阿里巴巴通义实验室于2025年9月开源了 Tongyi DeepResearch 模型(30B参数MoE架构,每次推理激活3B子模型),在 HLE、BrowseComp、GAIA 等多项权威评测上取得SOTA成绩,超越了 OpenAI Deep Research 和同期顶尖的 DeepSeek V3.1 等模型。通义 DeepResearch 通过贯穿预训练和微调阶段的合成数据训练链路,解决了深度研究任务中代理随着长对话出现的“认知空间窒息”和“噪声污染”问题,大幅提升了模型长程任务的推理稳定性和泛化能力。此外还有蚂蚁集团提出的 Atom-Searcher 强化学习框架,在细粒度奖励设计下实现了测试时计算扩展(即能够充分利用更长的推理链获取更高性能),并展现出更具可解释性的推理模式。
优点
RL 训练产生的DeepResearch模型具备更强的策略自主性和稳健性。它不再依赖人为编写的提示流程,因而在遇到新类型的问题或网页格式变化时不易崩溃,具有更好的泛化能力。模型通过奖励信号学到何时该检索资料、如何多步骤推理,往往比提示工程方法更善于自我规划和调整。实证表明,引入推理-检索闭环的RL智能体在复杂任务上的准确率远超普通LLM。例如在BrowseComp、多跳问答等挑战中,标准大模型准确率不足10%,而DeepResearch智能体达到 50%+,优势显著。此外,RL代理内部显式地拆解了思考步骤,某种程度上提供了可解释性:我们可以从模型生成的<think>内容中窥见其逻辑链路,比端到端输出一个答案更透明。也指出,原子思维等机制让模型推理轨迹对人类更直观可理解。这在安全合规上也是利好(便于审查其中间想法)。另外,RL方法训练出的模型可以离线部署,无须依赖外部API。企业可将其集成到自家产品中(如百度搜索引擎已部署开源 DeepSeek R1 模型,提高了复杂查询的检索深度),在保护数据隐私的同时避免第三方接口成本。
缺点:
首先,端到端训练难度大,实现成本高。需要构建复杂的训练环境和管线,包括模拟浏览器交互、处理海量网页,以及精心设计奖励函数避免模型走偏。训练过程极其耗费算力和时间,OpenAI等大模型的深度强化学习更是普通团队难以复现的。其次,RL策略学习中存在不稳定性挑战,如奖励稀疏、信用分配不当会导致模型学习缓慢甚至学不到有效策略。必须引入额外技巧(如过程奖励、分段训练等)才能克服,这增加了算法复杂度。再次,模型一旦训练完成,其行为在很大程度上被固化,灵活性略逊于提示词方法——想调整它解决新任务,往往需要追加训练或微调,而不能像Prompt那样即时改动策略。对安全对齐来说,RL模型如果训练目标主要是正确率,可能会出现为了得分不择手段的问题,除非将安全规则融入奖励。但这非常困难,需要定义违反安全的惩罚信号,否则模型可能学会不经核实引用不可靠来源,或者过度自信地下结论(当然,引入交叉验证等机制可以部分缓解不实信息)。相比之下,大厂提供的闭源RL模型通常在训练中已经考虑了安全守卫,而开源RL模型在这方面可能需要额外评估。最后,RL模型的推理开销依然不容忽视——虽然它在同等模型规模下比单步回答更准确,但由于执行了多轮搜索和读网页,推理一次耗时可能长达数分钟甚至更久。如何优化深度研究Agent的效率,也是RL方案面临的现实问题。
基于提示词和工具链的 DeepResearch 实现
技术路径与核心机制
第二种路线并不修改底层语言模型参数,而是利用提示词工程(Prompt Engineering)和外部工具调用来赋予现有模型以“研究员”能力。这类实现通常选用一个强大的预训练大模型(如 GPT-4 等)作为大脑,通过 carefully crafted 提示词指导它按步骤执行搜索、阅读和思考操作。整个流程由一个控制程序(或代理框架)编排,模型在对话式的上下文中与该控制程序配合完成任务。典型的方法包括 ReAct Prompting、自问自答 (Self-ask) 等,即在提示中呈现“思考-行动”交替模式,让模型先输出思考内容,再根据需要输出一个搜索指令,取回结果后继续思考……重复循环,直到得出最后答案。这个过程实际上手工实现了类似链式思考(Chain-of-Thought)与工具使用相结合的Agent。由于完全基于提示设计,这类Agent也被称为“提示式代理”。其关键在于设计合理的系统提示模板,明确规定模型何时可以调用哪些工具、输出什么格式,并辅以必要的Few-Shot示例指导模型遵循预期的步骤。例如,提示里会写:“如果需要查证信息,可以输出SEARCH[query],系统将返回搜索结果。请阅读后继续推理,直到得出结论用ANSWER[...]给出答案。”模型按照这样的格式进行多轮对话,即可完成深度搜索任务。除了搜索工具,也可集成其他模块化工具如网页摘要、PDF解析、代码执行等,根据任务需要随时调用。因此,该路径更多是构建一个多工具协作框架,其中LLM充当总指挥,通过自然语言决策调用各类能力,以插件化方式实现复杂任务的自动化。
关键组件
提示词和对话流程
开发者需编写精细的系统提示,定义代理的角色、目标和可用工具接口。提示词既要包括操作说明,也常包含示例对话(Few-Shot)让模型明白如何格式化输出。例如 ReAct 框架的提示就示范了先“Thought:”后“Action:”的思路
工具集合和执行器
这通常包括:网络搜索API(如调用浏览器或搜索引擎并返回前若干结果)、网页阅读器(抓取指定URL的内容供模型分析)、向量数据库(用于检索已有知识库)、甚至代码沙盒(执行模型产生的代码来计算问题)等。工具需要通过代理控制程序封装,使模型调用时能自动获取结果。以 Jina AI 开源的 DeepSearch 实现为例,他们将 Jina Reader 模块接入,让模型可以通过API搜索并获取网页markdown文本。模型输出的特殊标记<search>和<information>由系统解释为搜索行为和返回内容,接着模型会在<think>标签中继续推理。
循环控制逻辑
agent需要决定模型何时结束搜索进入答题阶段,或在模型卡住时采取措施(例如终止循环)。很多实现采用heuristics或简单规则,如限定最大迭代步数、当模型认为找到答案时退出循环等。高级一些的会监控模型每步思考内容,判断是否偏题或者重复无效搜索,并及时打断。展示了这一循环流程的抽象图:从用户Query出发,进入“搜索-阅读-推理”的Loop,直到产出最终Answer。
典型实例
许多现有产品实际上是Prompt+工具方式的产物。
Perplexity AI
Perplexity AI 在2025年初上线了 “Deep Research” 模式,可在2-4分钟内自动执行数十次搜索、阅读上百篇资料,并最终生成一篇结构清晰的研究报告。Perplexity官方介绍其实现包括:
(1) 带推理的研究:代理具备搜索和代码等工具,会迭代地检索、阅读文档并据此调整下一步计划,就像人类不断 refine 认识一样;
(2) 报告撰写:当收集完充分材料后,代理将所有研究内容综合成清晰全面的报告;
(3) 支持一键将报告导出或分享。可以看出,Perplexity并未声称用了新模型,而是充分利用原有LLM通过流程编排达到深度调研和长文输出的效果。
Jina AI
又如 Jina AI 推出的 DeepSearch 开源项目,强调“搜索-阅读-推理直到找到最好答案”的循环。Jina并没有训练自己的大型模型,而是通过工具+现有模型实现:默认使用 OpenAI 或 Google Gemini 2 API 作为推理引擎,配合其自主开发的Jina Reader用于网络内容抓取。开发者可以选择本地LLM接入,只要该模型支持他们设计的结构化输出格式(例如能正确输出<think>...</think>标记)即可。Jina DeepSearch 的特点在于专注精准答复而非长文报告,即它不停检索和推理的目标是找到正确答案并给出引用依据。相比之下,OpenAI、Google、Perplexity等的 DeepResearch 功能往往还能产出详细的长篇报告.
DeerFlow 框架
字节跳动开源了 DeerFlow 框架,这是一个多智能体协作的研究代理,采用 LangChain 等工具库搭建,支持本地LLM驱动。DeerFlow 可以调用网页爬虫、搜索和Python执行等模块,多个子Agent分工合作完成复杂研究任务,并支持语音朗读结果等功能。这体现了Prompt+工具模式的灵活性:通过增加不同工具和Agent,就能扩展系统能力。一些大型聊天机器人也属此范畴,例如 Bing Chat 的“搜索模式”以及早期的 ChatGPT Browsing 插件,都是通过在系统消息中告诉模型如何调用浏览器API,从而让模型具备上网查询的能力(但底层模型本身未改变)。总的来说,这一路径催生了大量Agent开发框架,如 LangChain、HuggingFace Transformers Agent、SMOL Agents 等,使得开发者无需训练模型,只需编排Prompt和工具即可打造自己的专用调研A。
优点
最大的优点是实现门槛低、迭代灵活。开发者可以即时利用最先进的通用大模型(如 GPT-4)的强大能力,通过提示词赋予其工具使用技能,而不必投入巨额成本进行重新训练。遇到新需求时,只要调整提示词或增减工具模块,就能让Agent适应新的任务流程,迭代非常敏捷。其次,因为底层依赖成熟的大模型,这类Agent在语言理解和生成上的基本能力有保障,初始表现往往不错。同时可以充分利用模型固有的对齐和安全机制——例如调用OpenAI的GPT-4,其内置的内容审核和拒答策略仍然有效,将代理行为限制在安全范围内。这在开发阶段降低了安全风险。再次,Prompt式代理易于控制。开发者通过系统消息可以注入规则,比如“不得访问未经授权的网站”“避免输出用户隐私信息”等,以指导模型遵守政策。这些控制不需要修改模型参数,属于软约束,但对高度遵循指令的模型(如GPT-4)来说相当奏效。此外,多工具框架使Agent具备很强的扩展性:可以方便地插件更多能力(如处理图像、调用数据库等),打造通用型助理。这一点上,RL训练的模型往往只在训练涵盖的工具上有效,而Prompt方法可以在不重新训练的情况下增加新工具接口。最后,Prompt方案更容易调试:如果Agent输出不理想,通常可以通过观察它每一步的思考(由模型直接按照提示输出)来分析问题,并修改提示或逻辑立即见效。这种透明度对于开发复杂系统是友好的。
缺点
-
对基础模型能力高度依赖。提示式Agent的上限取决于底层LLM,如果模型推理能力不足,则很难通过提示把它“扶上去”。事实证明,小模型在缺乏RL微调的情况下很难可靠地执行复杂多步推理和工具使用。因此很多此类Agent实际上都依赖Closed AI(如GPT-4)或者少数开源的大模型。这带来了成本和隐私问题:调用闭源API费用昂贵,同时企业数据需要发给第三方模型处理,存在合规隐患。
-
提示工程方法脆弱性较高。这些Agent按照人工编写的剧本工作,一旦出现剧本覆盖不到的情况(例如网页内容格式出现模型未见过的模式、用户问题超出预料),模型就容易迷失方向或给出荒谬结果。正如研究指出的,基于Prompt的调用策略泛化能力不足,模型不会自己判断何时该查资料或如何调整策略。所以当任务稍变,可能需要人工重写提示。有时模型还会不遵守格式,例如输出超出预期的内容,导致工具解析失败。这些都需要反复调优提示和代码逻辑来弥补。
-
提示链式Agent往往效率低下。因为缺乏学习,模型可能重复无效的搜索,或在不需要时也发起搜索。除非提示设计得非常健壮,否则模型不会像RL那样学会最优策略,可能做很多冗余工作,增加推理时延和API调用次数。
-
在安全方面,虽然能借助底层模型自带的守卫,但Prompt代理仍有可能被提示攻击(Prompt Injection)而偏离预期工具使用流程。攻击者可以试图让模型忽略开发者指令,从而造成安全隐患。这要求我们在提示中加入“永远遵守开发者指令”之类的约束,并希望模型足够忠实。此外,对于开源模型驱动的Prompt代理,由于这些模型对不良内容的管控远弱于OpenAI模型,代理在搜索时接触的有害信息可能导致其输出不当结论,开发者需要额外的过滤和监督措施来确保安全。
两种路径的对比分析
技术难度与实现成本
RL训练方案需要大量前期投入。要搭建完善的训练环境、收集/合成用于训练的复杂任务数据,以及长时间的算力投入做策略优化。实施过程中要解决诸多工程难题(网络交互、奖励设计、稳定性),总体开发周期长且门槛高。Prompt+工具方案则依托现有模型,即插即用,只需在应用层开发提示和集成工具,初始成本低得多,单兵开发者甚至在几天内就能做出原型。维护方面,RL模型一旦训练好,后续使用主要消耗是推理算力;Prompt方案每次运行都在消耗API或模型推理资源,成本随调用次数线性增长。如果使用大模型API,费用相当可观(Perplexity为此对免费用户限制每天Deep Research查询次数)。从部署难度看,RL方案产出的模型可以私有部署,本地推理需要一定GPU资源但总体可控。相较之下,Prompt方案往往依赖云端服务部署(除非基于开源大模型自行托管),对网络和外部服务依赖更大。在迭代升级方面,Prompt代理具有快速调整的优势,而RL模型想获得新能力可能需再次训练或引入新数据微调。
任务性能与适用场景
在调研复杂任务上,RL深度研究模型展现出更高的解题效率和准确率。例如OpenAI Deep Research智能体在多步推理基准Humanity’s Last Exam上达到近67%正确率,而单纯LLM只有不到20-30%。开源的DeepSeek-R1、通义DeepResearch等也纷纷在BrowseComp等复杂基准上碾压未结合检索的模型。这使得RL方案非常适用于高难度问答、专业资料调查、多跳推理等场景,尤其是有明确评价标准的问题(如竞赛题、考试题),因为可利用准确率奖励来训练模型达到超群表现。另一方面,Prompt方案借助超大模型的知识和语言能力,在泛化开放问答、创意性分析等场景也能给出相当不错的结果,并且更容易适应多样化任务。例如需要边查资料边写营销方案、旅行规划这类没有标准答案的开放任务时,Prompt代理可以通过调整提示,引导模型输出带参考资料的建议。但RL模型若奖励只针对事实正确,对这种开放任务就不好训练(因缺乏客观评价标准)。因此Prompt+工具在人机协作类应用(如辅助决策、头脑风暴)上可能更实用,因为开发者可以灵活设计提示风格。而RL模型更擅长自动问答和固定领域的研究助手。多工具综合任务方面,Prompt方案更有优势——比如既要查数据又要算数、再画图,直接在提示里串联多个工具即可;RL方案目前鲜有覆盖如此广工具集的(训练难度会指数增长)。总体而言,高精度刚性问答优选RL方案,广覆盖软性任务Prompt方案更灵活。值得一提的是,一些搜索引擎和商业产品倾向RL方案,因为他们追求答案质量和可控性;而个人和中小团队更青睐Prompt框架,快速整合现有AI能力满足各类垂直需求。
对齐控制与安全性
两种路径在安全对齐上各有特点。RL训练如果在奖励设计中纳入了对不当行为的惩罚,可以在模型层面避免很多危险动作。例如DeepResearcher在真实环境训练时,就观察到模型学会了保持诚实和自我反思——这说明通过适当的奖励,模型倾向于查证再回答,减少了幻觉和谎报。在理想情况下,我们也能对模型的输出进行过滤作为负向奖励,从而训练出自带安全性的Agent。然而实际上很难覆盖所有不良行为,RL模型一旦学会了自主决策,也可能出现意外行为。开发者对它的内部决策逻辑不如Prompt方案那样具备直接干预的手段。如果模型在训练中形成某些不符合安全规范的倾向,后期很难察觉和纠正,除非再次微调。因此,在RL方案里通常需要人工评估模型在安全场景下的表现,并可能辅以规则约束(例如设置模型不可输出特定Token来执行敏感操作)。相比之下,Prompt代理由于每次决策都有开发者提供的明确指令,可以更容易地植入安全守则。例如系统提示里明确列出禁止事项,模型基本会遵守(取决于底层模型对齐水准)。而且Prompt方案可以在工具层增加硬性限制——比如即使模型要求,也不去访问某些域名、不执行危害系统的命令等,从而提供多一道防线。抗提示攻击方面,RL模型因为不依赖外部提示,理论上不易被用户输入改变其底层策略;Prompt方案就需要严防用户在提问里混入恶意指令破坏流程(通过隔离用户提问与系统指令可以缓解)。隐私方面,自主部署的RL模型不与外部通信,隐私保障更好;Prompt方案如果使用外部API,用户查询内容和部分资料可能泄露给第三方。因此在对隐私敏感的企业场景,倾向于自研RL模型或使用本地大模型 + Prompt 的方式,而不会把数据发送到外部服务上。内容真实性上,RL深研模型由于学会了检索验证,回答往往自带引用依据,可信度高于纯LLM。Prompt代理也能通过提示要求引用来源,但模型是否严格遵循取决于提示质量和模型忠实度。如果底层模型对齐不够,可能编造引用。因此在严谨应用中,两种方案都会辅以引文和审计机制,但RL方案或许在这方面更自然地倾向于查证(因为那是它获得高分的途径)。总之,安全上Prompt方案可控性更高,RL方案潜在可靠性更强(只要训练得当)。实际系统往往结合两者:既利用模型学习到的诚实和推理能力,又在外层加提示和规则双重约束,以万无一失。
“搜索深度”
端到端 RL 训练出来的 DeepResearch 型代理普遍更强;而纯提示词+工具编排也能做“很深”的表面覆盖(很多次搜索、很多页面),但在有效深度/效率和策略稳定性上通常不如前者。
-
RL 代理会“学会”搜索与思考的节奏:像 Search-R1、DeepResearcher 这类工作,把搜索引擎/浏览器当作环境,让模型通过强化学习反复试错,学会何时扩展、何时收缩、何时回溯与交叉验证;在公开评测上相对提示工程基线有显著提升(DeepResearcher 报告:对 prompt-based 基线最高+28.9 分;对受限语料的 RL 基线最高+7.2 分),并出现“规划、交叉核验、自我反思、找不到就诚实说明”等涌现行为——这些都直接关系到“越挖越深”而不是“越搜越散”。
-
在同样的时间/Token 预算下,RL 代理更“深”而不是更“多”:Search-R1 的论文与框架强调“在推理过程中自主生成(多条)查询与多轮检索”,并用检索 Token 屏蔽与结果奖励稳定训练,从而优化“检索-推理”轨迹本身——这通常带来更少的无用检索、更高的命中与回溯质量。arXiv
-
提示词+工具可以做到“很忙很勤奋”,但策略容易脆弱/重复:例如 Perplexity 的 Deep Research 明确宣称“一次问题会执行几十次搜索、读上百个来源,几分钟产出报告”。这说明广度与覆盖量可以堆得很高;但是否“越堆越准”取决于外层编排、重排/去重、质量评估器等工程细节,策略不稳时容易在无关页面上打转。
这类系统里做得好的(如 Jina DeepSearch)会加“内部评估器+多次回合”,答案过不了质检就继续搜与改写,能一定程度弥补策略学习的缺口,但本质仍是编排,不是模型内生的搜索策略。
未来展望
展望未来,DeepResearch 智能体很可能朝着融合两种路径优点的方向演进,出现更多混合模式。一方面,强化学习将持续赋能语言模型的推理与工具使用能力。可以预见,大型模型(如GPT系、Claude系)的新版本会在训练中直接加入类似DeepResearch的多步骤检索任务,使得模型“开箱即会”这些技能,而无需完全依赖外部提示来引导。这实际上是在模型预训练或指令微调阶段就引入了一定的任务结构监督,属于Prompt工程范式对模型训导的前移。OpenAI等的闭源模型已经走在这一步,开源界也通过项目如DeepSeek、通义DeepResearch等将专项能力注入模型本身。随着此类模型增多,我们或许会拥有一批预训练即带Agentic能力的基础模型。另一方面,提示与工具链方法不会消失,反而会与训练方法更加紧密结合。一个可能的趋势是:用Prompt方式生成大规模交互数据,再用于监督微调或RL微调模型,从而将优秀的提示链决策固化到模型中。这已经在发生——蚂蚁的原子思维方案中,就先通过提示让教师模型演示细粒度推理步骤,收集了上千高质量范例,再用来训练学生模型。这种人类提示演示 + 机器强化学习结合,被认为是提升复杂Agent可靠性的重要路径。未来类似的方法可能扩展为“AI自己提示教AI”:让一个强Agent生成任务解答过程,训练另一个模型学习,从而降低对人类专家演示的需求。
混合模式还可能体现在系统架构上:同时利用训练好的Agent模型和提示式逻辑,取长补短。比如,可以让一个经过RL训练的小模型负责决定“何时需要搜索”**,**而把实际查询和综合工作交给一个更大的预训练模型执行。前者充当策略制定者,后者作为执行者和语言输出者。这类似多人团队合作:策略代理擅长控制流程(因为RL教会了它优化全局搜索步数),语言模型擅长读懂复杂资料和撰写答案。又比如,引入分工代理思想:正如Jina DeepSearch允许多个Agent并行,“团队”里的每个Agent可经过专门训练:一个善于快速筛选网页(如DeepResearcher里的浏览Agent),一个善于深度阅读长文档,还有一个擅长整合撰稿。它们各自用RL或SFT优化各自技能,再通过提示框架协同完成任务。这种多智能体混合系统将会更复杂,但有望在效率和可靠性上达到新的高度,因为每个子模块都更专业。
另一个值得关注的趋势是推理规模与性能的平衡。近期研究提出了“测试时扩展定律(Test-Time Scaling Law)”,指出增加模型推理的步骤数(例如多查几轮、多想几步)可以几乎线性地提升任务表现,弥补模型参数不足。这意味着即使模型不变,通过更深的思考也能获得更好答案。未来Agent可能会自适应决定推理深度:简单问题快速回答,困难问题则投入更多计算(就像人遇到难题会花更多时间查资料)。这种能力可以通过RL奖励来培养,也可以靠提示策略来硬编码。当越来越多用户和产品接受了AI多花几分钟换来权威答案的模式,深度研究Agent将有更大的发挥空间。可以想见,搜索引擎将提供“深度模式”,智能助手也许内置“慢思考”按钮,让Agent花时间为你调查清楚再答复。在这过程中,对齐与控制依然重要课题:Agent思考越多步,越需要机制确保每步不跑偏、信息来源可靠。因此未来可能出现审议式Agent——每完成一些步骤就反思校验一下(Reflection),或让第二个Agent审核前一个Agent的中间结论。这种双向对抗有助于安全和准确。OpenAI早期就探索了“让模型自我反思纠错”的提示技术,未来可以通过模型间的相互校准来强化。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)