WebSailor 和 Tongyi DeepResearch
维度WebSailor任务复杂度聚焦 Level 3 高不确定性任务(如模糊搜索、跨源验证)4覆盖全复杂度任务,尤其擅长长周期深度研究(如学术论文生成)16上下文管理动态轨迹重构,优化短期推理效率414IterResearch 范式,支持无限深度研究1数据生成SailorFog-QA:知识图谱模糊化45AgentFounder+SailorFog-QA-V2:多源动态数据飞轮6训练范式RFT 冷启
·
WebSailor 和 Tongyi DeepResearch 均为阿里巴巴通义实验室研发的智能体模型,但两者在设计目标、技术路线和应用场景上存在显著差异。以下是基于最新技术资料的详细对比:
一、核心定位与技术目标
WebSailor
- 定位:专注于高不确定性信息检索任务的开源网络智能体,旨在解决传统搜索引擎与普通 AI 模型难以应对的 “地狱级” 问题(如跨多源信息交叉验证、路径模糊且线索分散的任务)25。
- 技术突破:
- 首次在开源模型中实现对闭源系统(如 OpenAI DeepResearch)的逼近,在 BrowseComp 评测中准确率达 26.0%(72B 版本),超越 GPT-4o。
- 创新 “高难度合成数据 + 推理重构 + DUPO 算法” 三段式框架,解决复杂推理中的上下文溢出和冗余问题4。
- 轻量化设计,支持 7B 模型在移动端部署(荣耀 / 小米已接入测试)。
Tongyi DeepResearch
- 定位:首个可与 OpenAI DeepResearch 媲美的全开源深度研究智能体,专为处理复杂、长周期的信息检索任务设计,具备多步推理、工具调用和综合性分析报告生成能力167。
- 技术突破:
- 在 xBench-DeepSearch 等 7 项基准测试中刷新开源纪录,如 xBench-DeepSearch 得分 75.0,全面超越现有闭源及开源模型6。
- 提出IterResearch 迭代研究范式,通过周期性状态重建和报告生成,解决传统单上下文架构的 “上下文膨胀” 问题,理论上支持无限深度研究1。
- 引入Agentic CPT(智能体持续预训练),通过两阶段数据飞轮(32K→128K 上下文)提升长期规划能力1。
二、技术路线与训练范式
WebSailor
- 数据生成:
- SailorFog-QA:通过知识图谱随机游走构建复杂关系网络,对关键信息进行模糊化处理(如将 “2021 年发布的旗舰智能手机” 改写为 “近年推出的高端手机”),模拟真实信息迷雾45。
- 推理优化:
- 轨迹重构:利用开源推理模型生成初始轨迹,再通过另一模型精简推理步骤,去除冗余信息,提升上下文利用率414。
- 训练策略:
- RFT 冷启动:仅用 2000 个高质量样本快速赋予基础工具使用能力4。
- DUPO 算法:动态采样策略优化强化学习效率,训练速度提升 2-3 倍4。
Tongyi DeepResearch
- 数据生成:
- AgentFounder:全自动数据合成管道,整合文档、爬取数据、知识图谱和历史轨迹,生成博士级研究问题(如跨学科多源推理任务)6。
- SailorFog-QA-V2:针对深度研究场景定制,生成包含动态决策的多跳推理数据6。
- 推理范式:
- IterResearch:每轮迭代仅保留原始问题、上轮报告摘要和最新交互结果,通过马尔可夫状态重构实现聚焦推理1。
- ReSum 范式:定期对上下文进行总结压缩,突破 128K 上下文限制,支持超长文档处理1。
- 训练策略:
- 两阶段 Agentic CPT:
- 阶段 1(32K 上下文):掌握工具调用和多步推理基础能力。
- 阶段 2(128K 上下文):理解复杂动作空间和长期规划策略1。
- 强化学习:采用 Group Relative Policy Optimization(GRPO),通过 token 级策略梯度和负样本过滤稳定训练。
- 两阶段 Agentic CPT:
三、应用场景与性能表现
WebSailor
- 典型场景:
- 实时信息处理:如金融市场动态分析、社交媒体舆情监测5。
- 复杂事实查证:验证历史事件或新闻真实性,需跨多个网页交叉验证5。
- 轻量化部署:移动端快速响应(如荣耀 / 小米测试场景)。
- 性能亮点:
- 在 BrowseComp-en/zh 测试中,72B 版本准确率分别为 12.0% 和 30.1%,逼近 Doubao-Search 等专有系统14。
- 在 SimpleQA 测试中正确率超 90%,远超 GPT-4o,证明其对简单任务的向下兼容性。
Tongyi DeepResearch
- 典型场景:
- 学术研究:自动生成跨领域文献综述、研究计划及综合分析报告67。
- 商业智能:市场趋势预测、竞争策略分析(如丰田电动化转型案例)6。
- 法律与医疗:多轮案例检索、法条匹配及专业观点融合(如通义法睿)67。
- 性能亮点:
- 在 GAIA 基准测试中得分 70.9,超越 Claude-4-Sonnet(68.3)和 OpenAI DeepResearch(67.4)。
- 在 FRAMES 测试中达 90.6,远超 GLM-4.5(78.9),体现多模态推理优势。
四、核心差异总结
| 维度 | WebSailor | Tongyi DeepResearch |
|---|---|---|
| 任务复杂度 | 聚焦 Level 3 高不确定性任务(如模糊搜索、跨源验证)4 | 覆盖全复杂度任务,尤其擅长长周期深度研究(如学术论文生成)16 |
| 上下文管理 | 动态轨迹重构,优化短期推理效率414 | IterResearch 范式,支持无限深度研究1 |
| 数据生成 | SailorFog-QA:知识图谱模糊化45 | AgentFounder+SailorFog-QA-V2:多源动态数据飞轮6 |
| 训练范式 | RFT 冷启动 + DUPO 强化学习4 | 两阶段 Agentic CPT+GRPO 强化学习1 |
| 部署方式 | 轻量化(7B 模型移动端适配) | 高性能需求(30B-A3B 模型,支持 128K 上下文)6 |
| 开源生态 | 完整代码 + 模型权重开源,社区活跃度高2 | 全栈解决方案开源,提供 11 篇论文及工具链36 |
五、技术演进与未来方向
- WebSailor:计划优化异步训练框架,进一步提升多模态处理能力(如图文 / 音视频整合)8。
- Tongyi DeepResearch:目标扩展上下文至 1M token,探索离线强化学习和多智能体协作,推动从工具向智能伙伴的转变6。
六、开发者资源
- WebSailor:
- GitHub 仓库:Alibaba-NLP/WebAgent
- 模型下载:ModelScope
- Tongyi DeepResearch:
- GitHub 仓库:Alibaba-NLP/DeepResearch
- 技术博客:Tongyi DeepResearch 官方博客
两者的开源发布为开发者提供了从实时信息处理到深度研究的全链条解决方案,推动 AI 智能体在科研、商业及日常生活中的规模化应用。
更多推荐
所有评论(0)