近年来,大型语言模型(LLM)的进化已远超文本生成范畴,正演变为能够自主使用工具、进行多步推理以解决复杂问题的智能体系统。想象一个能替你浏览网页、查阅文献、执行代码、分析数据并最终生成一份可信研究报告的AI助手——这就是“深度研究智能体”的愿景。然而,尽管前景诱人,当前主流方法(主要基于通用基础模型的后训练,如指令微调SFT和强化学习RL)在构建此类智能体时却 consistently 表现不佳,特别是在开源领域。OpenAI的闭源“深度研究”智能体性能卓越,而开源模型与之差距显著。

  • 论文:Scaling Agents via Continual Pre-training

这篇由阿里巴巴通义实验室团队发表的论文直击这一痛点。他们识别出问题的根源:通用基础模型本身缺乏“智能体行为”的先天倾向(归纳偏置),导致后训练过程不得不 simultaneously 学习“如何做智能体”和“如何对齐专家行为”,造成内在的优化冲突。为此,他们开创性地提出了 智能体持续预训练(Agentic Continual Pre-training, Agentic CPT) 这一新范式,旨在预训练阶段就为模型注入强大的智能体基础能力,并基于此成功开发了名为 AgentFounder 的深度研究智能体模型。其在10个基准测试中达到了业界领先水平,部分性能甚至逼近或超越了顶尖闭源产品,为构建强大、开源的通才智能体指明了新方向。

研究动机:为何后训练不足以打造强大智能体?

当前,为LLM赋予智能体能力的主流方法是后训练(Post-training),即在已经预训练好的通用模型(如Qwen、LLaMA)上,使用监督微调(SFT)强化学习(RL) 来学习工具使用和推理轨迹。

  • 当前方法的局限性:论文指出,这种方法存在根本性瓶颈。
  1. 数据覆盖难题:智能体策略空间极其巨大,而SFT严重依赖完整、高质量的任务轨迹数据。收集能全面覆盖所有可能场景的轨迹数据几乎是不可能的。
  2. 行为定义模糊:智能体的轨迹长且复杂,何为“完全正确”的行为难以精确定义。这导致SFT和RL依赖于有限且确定的监督信号,模型容易只是模仿和记忆特定的行为模式,而非学会灵活决策
  3. 优化冲突:最核心的问题是,通用基础模型是为下一个词预测而预训练的,其本身并未内置对“工具使用”、“多步推理”等智能体核心行为的偏好(即缺乏智能体归纳偏置)。让这样的模型在后训练阶段同时学习新能力(怎么做智能体)和对齐(怎么做得像专家),相当于让一个小学生 simultaneously 学习微积分和如何写一篇优秀的微积分论文,任务过于艰巨,导致优化效果不佳。
  • 根本问题:因此,性能瓶颈的根源在于缺乏一个强大的、具有智能体先天倾向的“基础模型”。现有的后训练方法都是在“错误的基石”上修修补补。

核心解决方案:智能体持续预训练 (Agentic CPT)

为解决上述问题,论文提出了一个全新的训练范式:在预训练后训练之间,插入一个 智能体持续预训练(Agentic CPT) 阶段。

  • 整体训练流程重构:新的流程变为:
  1. 预训练:获得通用语言和知识能力。(基础)
  2. Agentic CPT持续地使用海量智能体行为数据,以“下一个词预测”的方式,让模型初步掌握智能体的核心能力(如工具调用模式、推理链)。其目标是产出一个“预对齐”的智能体基础模型
  3. 后训练:在此基础上,再用高质量的SFT或RL数据进行精细微调,进一步对齐到专家行为。

智能体训练流程示意图

  • 两阶段训练策略:为了高效学习不同类型的智能体数据,论文采用了渐进式的两阶段策略:
  • Stage 1:主要使用较短上下文(32K)的FAS数据和简短HAS数据,让模型初步建立智能体行为概念。
  • Stage 2:聚焦于高质量、长上下文(128K)的HAS数据,让模型发展出对复杂动作空间和长程规划策略的精深理解

数据合成方法论:规模化生成智能体行为数据

Agentic CPT的成功极度依赖于海量、高质量的智能体行为数据。论文的核心贡献之一是提出了两种可规模化、低成本的数据合成方法。

  • 零监督信号的一阶动作合成 (FAS) :该方法完全不需要调用昂贵的商业API,仅利用多样化的数据源合成数据。

    基于可扩展信息源的多风格问答生成示意图

    规划动作合成示意图

  • 推理动作合成:当智能体通过工具获取足够信息后,需要合成最终答案。该方法要求LLM不调用外部工具,仅基于问题和其映射到的必要知识,先生成一个初步答案,再根据确切知识进行修正,生成一步步的逻辑推理链和最终答案。这个过程模拟了人类“思考-验证”的推理过程,增强了模型的逻辑推理和信息整合能力。

  • 规划动作合成:对于生成的每个问题,让LLM生成K种不同的初步问题分析和第一步的行动预测(调用哪个工具或直接回答)。关键洞察是:第一步推理的质量与最终任务完成率高度相关。通过为每个问题生成多个可能的“第一反应”,极大地扩展了模型对每个问题行动空间的探索。

  • 知识到问题的转换(构建多样化上下文):首先,将网络爬取、 discarded 轨迹等静态知识源,以一种“实体-知识陈述”的形式组织成一个开放的“世界记忆库”。例如,实体“法国”可能对应“2025年6月法国游客达422.2万人”等多个知识陈述。然后,随机采样实体簇及其知识,合成涵盖事实检索、数值计算、多跳推理等多种风格的问题。这样就將静态知识转化为了需要主动信息检索和工具使用的动态问题解决场景

  • 带监督信号的高阶动作合成 (HAS) :后训练(尤其是RL)会产生大量被丢弃的次优轨迹,它们蕴含了宝贵的学习信号。HAS旨在高效复用这些轨迹。

    高阶动作合成数据与原始轨迹对比示意图

  • 轨迹重用挑战与洞察:轨迹级评估(成功/失败)太粗糙,导致大量次优轨迹被浪费。而步骤级评估又难以精确。论文的洞察是:轨迹中的每一步,在其上下文中,都存在多个可行的推理-动作选项。模型不应只学习模仿唯一成功的轨迹,而应学习在每一步做出正确决策
  • 步骤级扩展与对比决策合成:对于轨迹中的每一步,利用LLM生成N个替代的“思考和调用”候选方案。将原始步骤与这些新候选方案混合、打乱,形成一个决策选项集。然后,将整个轨迹改写成一种渐进式决策文本:在每一步,明确列出所有选项,并声明“我将选择选项X”,紧接着给出真实的环境反馈,最后标注这一步的决策是否正确。这样,一条轨迹就被转化为了富含决策信号的高质量训练数据。

AgentFounder 模型与实验验证

基于上述方法,以Qwen3-30B为基础模型,通过Agentic CPT和后续SFT,得到了AgentFounder-30B模型。

  • 实验设置:论文在10个权威基准上进行了全面评估,包括通用网页搜索(如BrowseComp, GAIA)和场景化任务(如HLE“人类终极考试”, 学术浏览)。对比模型涵盖了通用LLM配工具、商业深度研究智能体、开源深度研究智能体三大类。

  • RQ1: 性能对比:AgentFounder-30B表现卓越,实现了新的SOTA。

    通用网页搜索基准结果

    场景化网页搜索基准结果

  • BrowseComp-en上达到39.9%,大幅领先所有开源模型,逼近OpenAI o3 (49.7%) 和 Deep Research (51.5%)。
  • 在极具挑战性的HLE基准上,以31.5% 的Pass@1率成为首个超过30分大关的开源模型,超越了所有已报告的闭源产品。
  • GAIA、Frames、AcademicBrowse等多个基准上全面领先,证明了其能力的全面性和鲁棒性。
  • RQ2: 基础模型适应性:实验表明,经过Agentic CPT得到的AgentFounder-30B-Base基础模型,在使用三种不同SFT数据配方进行后训练时,均一致地、显著地优于从原始Qwen3基础模型开始训练的效果。

    基础模型适应性验证

  • 这验证了Agentic CPT产出的预对齐基础模型具有强大的通用性和适应性,能为不同的后训练策略提供一个更高的起点。
  • RQ3: 训练策略有效性:两阶段训练策略带来了一致的性能提升(平均提升3.3% Pass@1)。这表明专门用长上下文学习完整的智能体轨迹至关重要,简单的截断会损失信息。

    两阶段训练策略有效性评估

  • RQ4: 数据类型贡献:Both FAS and HAS data contribute!

    数据类型效果分析

  • FAS数据效果显著,仅使用FAS数据进行CPT就能带来巨大增益。
  • HAS数据提供了互补收益,与FAS结合能获得更佳效果,尤其是在Pass@3指标上,表明其增强了模型决策的多样性。
  • RQ5: 缩放定律探索:研究表明,智能体能力同样遵循缩放定律

    智能体能力缩放定律探索

  • 模型规模:性能随参数增加而提升,AgentFounder-30B的效率优于参数量更大的基线模型。
  • 数据量:性能随训练token数增加呈对数增长,且在315B的整个预算内持续提升,未出现饱和。第二阶段的长上下文训练能持续带来收益。
  • 综合分析

    训练损失演化图

    工具调用分布对比

    ACEBench通用工具使用能力对比

  • 通用工具使用能力:在ACEBench基准上,AgentFounder也展现出了比原始基础模型更强的通用工具使用能力,表明其潜力不限于深度研究,可扩展至更广泛的智能体场景。

  • 工具调用分析:AgentFounder能根据任务复杂度自适应地调整工具使用策略:对复杂研究任务(如BrowseComp)大量调用工具进行深入探索,对结构化任务(如WebWalker)则使用更保守、高效的调用模式。

  • 训练过程:Agentic CPT显著降低了后续SFT的损失,使模型收敛更快、更好,证明了其有效缓解了“同时学习能力与对齐”的双重负担。

相关工作与结论

相关工作

论文回顾了深度研究智能体的发展历程,从OpenAI的开创性工作到众多开源项目的百花齐放(如WebSailor, GLM-4.5, DeepSeek-V3.1等),指出了当前工作大多聚焦于后训练数据构造,而在持续预训练阶段系统性注入智能体能力的工作仍属空白。这也凸显了本文工作的创新性。

结论

本文的核心贡献在于:

  1. 范式创新:首次提出了Agentic Continual Pre-training (Agentic CPT) 这一新训练阶段,重新定义了智能体对齐的 pipeline。
  2. 方法创新:提出了系统性的、可规模化的智能体数据合成方法(FASHAS)以及配套的两阶段训练策略
  3. 性能卓越:基于此培育出的AgentFounder-30B模型在10个基准上达到了开源SOTA,部分性能比肩甚至超越闭源商业模型,证明了新范式的巨大潜力。
  4. 前景广阔:这项工作为构建更强大、更通用的智能体基础模型开辟了新的道路,预示着智能体能力有可能像语言能力一样,通过大规模的预训练成为模型的基础属性。

如何学习大模型 AI ?

我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍+AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

为什么要学习大模型?

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

在这里插入图片描述

适合人群

  • 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
  • IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
  • IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
  • 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
    在这里插入图片描述

课程精彩瞬间

大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。

在这里插入图片描述

RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。 在这里插入图片描述

Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
在这里插入图片描述

模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。 在这里插入图片描述

顶尖师资,深耕AI大模型前沿技术

实战专家亲授,让你少走弯路
在这里插入图片描述

一对一学习规划,职业生涯指导

  • 真实商业项目实训
  • 大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调

在这里插入图片描述
大厂绿色直通车,冲击行业高薪岗位
在这里插入图片描述

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐