一句话概括,作者们不再执着于让AI“学会思考”,而是专注于让AI“正确执行”,他们通过将一个百万步任务分解成独立、无记忆的单步决策,并引入“投票容错”机制,成功地将LLM从一个充满不确定性的“创造者”改造为一个极其可靠的“执行者”,证明了系统设计的力量可以超越模型本身智能的局限。(原论文题目见文末,点击阅读原文可直接跳转至原文链接, Published on arxiv on 12 Nov 2025, by Cognizant AI Lab & UT Austin)

第一阶段:识别核心概念

1.论文的Motivation分析

今天我们解读一篇非常震撼的论文,它解决了一个长期困扰AI领域的问题:如何让大型语言模型(LLM)在执行超长任务时不出错。

现在的LLM非常聪明,无论是写代码、写文章还是进行推理,都表现得相当出色。但它们有一个致命的弱点:无法“善始善终”。想象一下,你让一个LLM执行一个包含一百万个步骤的任务,即使它在每一步的正确率高达99.9%,在整个任务不出错的概率也几乎为零。这就是所谓的“复合错误”的诅咒——微小的错误在长链条中不断累积,最终导致整个任务的崩溃。

目前的AI研究主流方向是“大力出奇迹”:通过增加模型参数、投入更多数据和算力,让LLM本身变得更“智能”。这就像是试图培养一位全知全能的“宗师”,希望他能独自完成所有复杂任务。然而,这篇论文的作者们认为,这条路在面对超长任务时可能走不通。

因此,他们提出了一个全新的、正交的(Orthogonal)思路:我们真的需要一个无所不能的“宗主”吗?还是说,我们可以将一项史诗级任务分解成一百万个微不足道的小任务,然后雇佣一百万个廉价但合格的“学徒”,并建立一套高效的纠错机制,来共同完成这项壮举? 这就是本文的核心动机——不再追求单个模型的完美,而是通过系统架构的设计,实现群体智慧的极致可靠性。

2.论文主要贡献点分析

这篇论文的贡献是系统性的,可以概括为以下三点:

  • 提出了一个全新的AI系统框架:大规模分解式智能体过程(MDAPs)
    这不只是一个模型,而是一种全新的理念。作者主张,与其让一个庞大的“单体智能体”处理所有事情,不如将任务分解到极致,让无数个“微智能体”各自处理一个极小的步骤。

  • 实现并验证了该框架的核心技术:MAKER系统
    关键技术一:极限任务分解(Maximal Agentic Decomposition)——这是基石。将一个复杂的、需要长期记忆和推理的任务,拆解成一系列独立的、仅需当前状态就能解决的"一步"子任务。
    关键技术二:高效容错投票机制(First-to-ahead-by-k Voting)——这是保障。既然每个"学徒"(小模型)都可能犯错,那就让多个学徒独立完成同一个小任务,然后通过投票选出最可靠的答案。这种机制极大地提升了单步任务的成功率。
    关键技术三:风险信号识别(Red-Flagging)——这是"防火墙"。在投票前,系统会预先筛掉那些看起来就不靠谱的答案(比如格式错误、胡言乱语),这能有效避免"集体犯错"的风险。

  • 取得了里程碑式的显著结果
    论文最令人瞩目的成果是:成功地让LLM系统完成了超过一百万步的“汉诺塔”任务,且全程零错误。这在之前是不可想象的。
    这个结果证明了一种“多智能体优势”(Multi-agent Advantage):即一个由多个简单智能体组成的系统,能够解决单个、更强大的智能体无法解决的问题。这为AI的规模化扩展开辟了一条全新的道路。

3.理解难点识别

要真正理解这篇论文的精髓,我们需要弄清楚以下几个关键点:

  • 核心挑战:可靠性的规模化定律(Scaling Law of Reliability)
  • 论文最核心、也最具挑战性的部分,是理解"极限分解"和"投票机制"如何从数学上保证系统能在百万步的尺度上保持高可靠性。关键问题:单步成功率()、投票数()、总步数()和总成本之间存在什么样的数学关系?为什么这种关系使得长程任务成为可能?这背后的"规模化定律"是理解本文技术深度的关键。
  • 重点解释概念:极限分解 + 投票容错
  • 我们需要重点解释,为什么“把任务拆得极碎”是至关重要的?以及,“领先k票即胜出”的投票机制是如何在成本可控的前提下,将一个普通模型的微弱优势,指数级地放大成接近100%的把握。
概念依赖关系

这些核心概念之间存在着清晰的逻辑链条:

  1. 极限任务分解前提。只有将任务分解成独立的、无历史依赖的微小子任务,后续的并行处理和独立投票才成为可能。
  2. 投票容错机制核心。它建立在分解的基础上,通过群体决策来对抗单个智能体的随机错误,是实现高可靠性的主要手段。
  3. 风险信号识别辅助。它作为投票机制的“前哨”,通过过滤掉明显错误的样本来提高投票的效率和鲁棒性,特别是在对抗“相关错误”(correlated errors)时至关重要。

因此,我们的最佳切入点就是从“极限任务分解”开始,然后深入探讨“投票容错机制”背后的数学原理,因为它完美地连接了所有关键概念,并揭示了系统能够成功的根本原因。

第二阶段:深入解释核心概念

设计生活化比喻:众包翻译一部百万页的百科全书

想象一下,我们有一个宏大的任务:要将一部包含一百万页内容的古老百科全书,从一种语言精确无误地翻译成另一种语言。

  • 传统的“宗师”方案:我们聘请一位全球顶级的翻译宗师。他学识渊博,经验丰富,但即便如此,让他连续工作翻译一百万页,难免会因为疲劳或疏忽,在某个地方犯个小错。而一个小小的翻译错误,可能会导致后续章节的理解产生偏差,最终毁了整部巨著的价值。这就像依赖单个强大的LLM,其“复合错误”的风险极高。
  • MAKER的"众包"方案:我们放弃寻找完美的宗师。取而代之,我们这样做:
    任务分解 (Decomposition):我们不按章节或段落分配任务,而是把任务拆到最细的粒度——每一句话。一百万页的书,可能被拆分成了数千万个独立的句子翻译任务。
    众包执行 (Agent Execution):我们在一个大型众包平台上发布这些句子翻译任务。平台上有成千上万名刚入门的初级译者。他们收费便宜,但水平一般,翻译一句话可能会犯错。
    同行评审 (Voting):为了确保质量,我们不只让一个初级译者翻译一句话。而是随机找来一小群(比如5-10个)初级译者,让他们独立地翻译同一句话
    主编裁决 (Error Correction)我们设立一个"主编"角色。主编不亲自翻译,只负责看这些初级译者提交的译文。他的裁决规则很简单:“对于任何一句话,只要有一个译文版本得到的支持票数,比第二名的票数多出 票(比如3票),我就采纳这个版本。” 如果暂时没有版本满足这个条件,那就继续找新的初级译者来翻译,直到分出胜负。
    预审过滤 (Red-Flagging):在主编看到译文之前,还有个实习生会做一轮预审。如果发现某个译者提交的内容乱七八糟、文不对题或者长度离谱,就直接扔进垃圾桶,根本不参与后续的投票。

这个“众包翻译”项目,就是MAKER系统工作方式的生动写照。

建立比喻与实际技术的对应关系
  • 百科全书 <-> 整个百万步的长程任务 (如20层汉诺塔)
  • 翻译一句话 <-> 一个独立的子任务 (如移动一次汉诺塔盘子),这就是**极限分解 (Maximal Decomposition)**。
  • 初级译者 <-> 一个基础的、廉价的LLM (如 gpt-4.1-mini)。它有一定能力,但不是完美的,会犯错。
  • 初级译者的翻译水平 (正确率) <-> **基础LLM的单步成功率 ()**。
  • 为一句话找多个译者 <-> 对一个子任务进行多次独立采样调用LLM
  • 主编 <-> 投票系统
  • “领先k票胜出”的规则 <-> “First-to-ahead-by-k”投票算法
  • 实习生的预审 <-> 风险信号识别 (Red-Flagging) 机制。
  • 最终出版的、零错误的百科全书 <-> MAKER系统最终生成的、零错误的百万步任务解

这个对应关系是合理的,因为它精准地捕捉了MAKER系统的核心思想:用冗余和群体决策,来弥补个体能力的不足,从而实现系统层面的超高可靠性。

深入技术细节
核心公式1:单步投票的成功率

首先,我们来看投票如何极大地提升了“翻译一句话”的正确率。假设一个初级译者的水平(单步成功率)是 ,我们采用“领先 票胜出”的规则。那么,通过投票选出正确答案的概率 可以用下面的公式(原文Eq. 9)来近似:

  • 原始数学形式:

  • 符号替换版本:

    投票选对的概率单个犯错的概率单个做对的概率

  • 解读: 这个比值是关键。它代表了"犯错的可能性与做对的可能性的比值"。只要我们的"初级译者"不是在瞎猜,即 ,那么这个比值就是一个小于1的数。 次方是点睛之笔。一个小于1的数,它的 次方会随着 的增大而指数级地趋近于0映射回比喻:假设一个初级译者的正确率 是90%(0.9),那么犯错率 就是10%(0.1)。这个比值是 。如果我们设置 ,那么 大约是0.0013。最终投票选对的概率大约是 ,高达 **99.87%**!看到了吗?我们仅仅通过让几个水平为90%的译者进行投票,就把单步任务的成功率从90%提升到了99.87%!如果 本身更高,或者我们增加 ,这个成功率可以无限接近100%。

核心公式2:整个任务的成功率

现在,我们把目光从“一句话”放大到“整本百科全书”。整个任务的最终成功率 是单步成功率 的连乘(原文Eq. 13的特例):

  • 原始数学形式 (代表极限分解):

  • 符号替换版本:

    完成整个任务的总成功率搞定一个子任务的成功率(经过投票后)任务总步数

  • 解读:这就是我们之前提到的"复合错误"诅咒的数学形式。但现在,因为投票机制的存在, 已经被我们提升到了一个极高的水平(比如99.9999%)。映射回比喻:即使我们的百科全书有一百万页( = 1,000,000),只要我们能通过投票把翻译每一句话的正确率 提升到足够高,最终整本书零错误的概率 依然可以保持在一个很高的水平(比如90%以上)。我们成功地用投票机制逆转了复合错误的诅咒

核心公式3:成本的规模化定律

这一切听起来很美好,但代价呢?雇佣那么多初级译者,成本会不会爆炸?论文给出了一个令人振奋的答案:成本增长是极其温和的(原文Eq. 18)。

  • 原始数学形式:

  • 符号替换版本:

    完成整个任务的预期总成本常数总步数总步数

  • 解读: (读作 s log s) 是一个著名的增长率,它比线性增长 () 稍快,但远比指数增长慢。 (即 ) 部分的来源,正是维持高成功率所需的领先票数 。论文推导出,当任务长度 增加时, 只需要按照 的速度缓慢增长即可。映射回比喻:这意味着,如果我们的百科全书从一百万页增加到一千万页( 变为10倍),我们并不需要将每个句子的评审标准(值)也提高10倍。我们只需要将 值稍微增加一点点(),就能维持同样的整体质量。因此,总成本几乎是随着任务长度线性增长的,这使得该方法在经济上完全可行。

将技术细节与比喻相互映射
  • 投票如何工作:主编(投票系统)收集多个译文(LLM输出),统计票数,直到某个版本(某个具体行动)的票数比第二名多 票。
  • 数学原理的体现: 意味着初级译者(LLM)的水平比瞎猜要好,这是投票能够收敛的基础。 值的设置,就像主编的信心阈值, 越大,单步任务的结论就越可靠,但成本也越高。 的成本定律告诉我们,这个信心阈值 不用随着任务规模的扩大而急剧提高,这是一个巨大的好消息。
  • 比喻的局限性:我们的比喻假设每个初级译者犯的错误是完全独立的。但在现实中,如果某个句子的表达本身有歧义,很多译者可能会犯同样的错误。这对应了LLM的“相关错误(correlated errors)”。这正是“实习生预审”(Red-Flagging)机制要解决的问题。它通过过滤掉那些因为共同困惑而产生的、模式相似的错误输出来打破这种相关性。
总结

通过“众包翻译百科全书”的比喻,我们可以深刻地理解MAKER系统的核心魔法:

  • 它不依赖于昂贵且依然会犯错的“宗师”(大模型),而是巧妙地利用了大量廉价的“初级译者”(小模型)。
  • 核心数学原理在于,通过**“领先k票胜出”的投票机制**,将单个译者微弱的正确率优势 (),指数级地放大为单步任务极高的成功率。
  • 最终,这种极高的单步成功率足以抵抗住长程任务中“复合错误”的诅咒,并且整个过程的**成本增长是温和可控的 ()**。

这套组合拳,就是MAKER能够完成百万步零错误任务的秘密所在。

第三阶段:详细说明流程步骤

假设当前是任务的第 步,我们的目标是根据当前汉诺塔的盘子状态 和上一步的移动 ,来决定这一步的正确移动 和移动后的新状态 。

输入

  • **当前状态 **:一个表示三个柱子上盘子分布的列表,例如 [[3, 2], [1], []]
  • **上一步移动 **:一个记录了上一步移动信息的列表,例如 [1, 0, 2](表示将1号盘从0号柱移动到2号柱)。

处理流程:

  1. 构建提示语(Prompt Generation)
  • 系统会根据一个固定的模板,将当前状态 和上一步移动 填入一个精心设计的Prompt中。这个Prompt不仅包含了当前局面,还明确地给出了解题的通用策略(例如,“如果上一步移动的不是1号盘,则这一步必须移动1号盘到顺时针方向的下一个柱子”)。这个策略对所有步骤都是一样的,确保了每个“微智能体”都知道游戏规则。
  1. 并行采样(Parallel Sampling)
  • 系统进入一个循环,核心是“直到选出唯一胜者”。
  • 在循环的每一轮,系统会并行地向基础LLM(如 gpt-4.1-mini)的API发送大量请求(例如,同时发送10个请求)。所有这些请求使用的都是上一步构建的完全相同的Prompt。
  • 这就像是把“求解第 步”这个任务同时交给了10个独立的“微智能体”去思考。
  1. 响应接收与预处理(Red-Flagging)
  • LLM的响应陆续返回。每个响应理论上都应该包含两部分内容:move = [...]next_state = [...]
  • 在这个阶段,**"风险信号识别"模块(Red-Flagging Parser)开始工作,它像一个严格的门卫,对每个响应进行检查:格式检查——响应是否严格遵循了 movenext_state 的格式?如果没有,直接丢弃**;长度检查——响应的token数量是否超过了一个设定的阈值(比如750)?如果超过,说明LLM可能陷入了"长篇大论"的混乱状态,直接丢弃内容检查——解析出的 movenext_state 是否是合法的列表?如果不合法,也**丢弃**。
  • 只有通过了所有检查的、格式完美的响应,才被认为是“有效投票”,并被送往下一步。
  1. 投票与裁决(Voting and Decision)
  • 系统维护一个计票板,记录每一种不同的 move 方案获得的票数。
  • 每当一个“有效投票”进来,系统就解析出其提议的 move,并在计票板上为该方案加一票。
  • 关键裁决步骤:每投完一票,系统都会立刻检查计票板,判断是否满足"领先k票胜出"的条件(论文中设置 )。假设当前计票板上,方案A有5票,方案B有2票,方案C有1票。此时,方案A的票数 领先第二名方案B的票数 达到了 票()。裁决条件满足! 系统立即宣布方案A胜出。
  • 如果检查后发现,没有任何方案满足领先 票的条件(比如A有3票,B有2票,差距不够),那么裁决不发生
  1. 循环或结束
  • 如果已裁决出胜者:系统将胜出的 move 方案定为本步骤的最终行动 。同时,从投出该 move 的众多响应中,任选一个对应的 next_state 作为本步骤的结果状态 。本步骤处理结束
  • 如果尚未裁决出胜者:系统返回到步骤2(并行采样),再次发起新一轮的API请求,收集更多的"有效投票",继续累加到计票板上,直到某一方案满足裁决条件为止。

输出

  • **本步行动 **:经过投票确认的、最可靠的移动方案。
  • **新状态 **:执行 后的汉诺塔盘子分布。

这个输出 将作为第 步的输入,整个流程将丝滑地衔接并重复下去,直到完成全部一百万多步,解开整个汉诺塔谜题。这个流程的核心在于其鲁棒性:即使少数LLM调用出错,也会被投票机制过滤掉;即使某个步骤特别有迷惑性,导致投票竞争激烈,系统也会通过增加采样轮次来“大力出奇迹”,直到找到一个足够可靠的答案。

第四阶段:实验设计与验证分析

主实验设计解读:核心论点的验证
  • 核心主张
  • MAKER系统(作为MDAP框架的实现)能够解决传统单体LLM无法完成的超长程、零容错任务。
  • 实验设计
  • 任务选择20层汉诺塔问题。这是一个绝佳的选择。合理性分析可扩展性——汉诺塔的步数随着层数 指数级增长 (),20层恰好对应约105万步,足以构成"超长程"挑战;确定性——每一步都有唯一的最优解,便于精确评估"零错误";领域公认——汉诺塔是经典的规划和推理问题,被用作评估LLM长程推理能力的基准。
  • 评价指标最终任务成功率。这是一个极其严苛的二元指标——要么100%成功(完成所有步骤且零错误),要么0%失败。这直接对应了论文标题中的“Zero Errors”。
  • 基线方法(Baselines):论文巧妙地将所有现有的LLM都作为了隐性基线。在图1中,作者引用了其他研究的数据,表明即便是最强的LLM(如GPT-4),在汉诺塔任务上最多也只能连续正确几百步,之后错误率就会导致任务失败。MAKER的目标不是比它们“好一点”,而是要实现质的跨越——从“必然失败”到“成功解决”。
  • 主实验结果:MAKER系统使用gpt-4.1-mini作为基础模型,成功地、无差错地解决了20层汉诺塔问题
  • 结论:这个结果无可辩驳地证明了论文的核心主张。它不是在现有基线上提升了几个百分点,而是完成了一件被认为是“不可能”的事情,展示了论文所称的“多智能体优势”。
消融实验分析:内部组件的贡献

论文中一个非常关键的消融分析,集中在**“风险信号识别”(Red-Flagging)**这个组件上。

  • 消融设计
  • 被“消融”的模块:严格的错误过滤机制。
  • 如何实现:作者对比了两种不同的输出解析器(Parser)。**“修复型解析器”(Repairing Parser)——相当于没有Red-Flagging**。它会尝试去理解和修复格式不规范的LLM输出,尽可能从中提取一个答案。“标记型解析器”(Flagging Parser)——这就是**带Red-Flagging**的实现。它对格式要求极其严格,任何不合规的输出都直接标记为无效并丢弃。
  • 实验结果分析(见图9)
  • 图9a显示,当LLM的回答长度超过700个token时,其错误率会急剧上升。严格的长度限制(Red-Flagging的一种)能有效过滤掉这些高风险的回答。
  • 图9b是关键。它展示了"碰撞次数"(Collisions),即在前两轮投票中,两个投票都是错误答案的步骤数量。使用"修复型解析器"时,碰撞次数随着回答长度上限的放宽而显著增加。这表明LLM在某些困难步骤上会陷入思维定势,产生相关的、系统性的错误(correlated errors)。多个智能体犯了同一种错误。而使用"标记型解析器"时,碰撞次数一直保持在极低的水平。
  • 结论
  • 这个消融实验有力地证明了Red-Flagging的必要性。它的作用远不止是提高单步成功率,其更核心的贡献在于打破错误的“相关性”。通过将那些“看似努力思考但已走火入魔”的混乱回答拒之门外,系统避免了在困难问题上被集体误导,从而保证了投票机制的独立性和有效性。
深度/创新性实验剖析:洞察方法的内在特性
  • 巧妙实验一:成本效益分析与模型选择(图6b)
  • 实验目的:证明MAKER框架不仅技术上可行,而且在经济上是聪明的。它提供了一种量化方法来选择“性价比”最高的LLM。
  • 实验设计:作者没有直接选择最强大或最便宜的模型。他们先在少量样本上,为多个不同的LLM(从昂贵的haiku-4.5到廉价的gpt-oss-20B)估算出关键参数:单步成功率和平均token成本。然后,他们利用成本规模化定律(公式18)来预测完成整个百万步任务的总成本。
  • 实验结论:这是一个惊人的发现!最终的“赢家”是gpt-4.1-minigpt-oss-20B。它们不是最强的(不是最高),也不是单位价格最便宜的,但它们在可靠性与成本之间取得了最佳平衡。这完美印证了论文的核心哲学:不需要昂贵的“宗师”,一群廉价可靠的“学徒”是更优的选择。这个实验为如何在实践中应用MDAP框架提供了清晰的指导。
  • 巧妙实验二:收敛过程的可视化验证(图8)
  • 实验目的:在真实的百万步任务中,经验性地验证投票过程的效率是否符合理论预期的指数级收敛。
  • 实验设计:在整个20层汉诺塔任务的运行过程中,作者记录了在每一轮投票之后,还有多少个步骤“尚未作出决定”。
  • 实验结论:图8a和8b清晰地显示,未决定步骤的数量随着投票轮次的增加呈指数级下降。绝大多数步骤在前轮投票内就解决了。这证明了投票机制在实践中是极其高效的,大部分成本都花在了最初的几轮投票上。同时,图中也显示有极少数“顽固”步骤需要十几轮投票,这再次凸显了Red-Flagging机制处理这些“异常值”的重要性。
  • 巧妙实验三:对“病态”步骤的案例研究(图11及附录D)
  • 实验目的:深入分析那个最困难的、需要18轮投票才解决的步骤(Step 10241),以理解错误的来源和投票机制的韧性。
  • 实验设计:作者单独绘制了这一“病态”步骤的投票过程图(图11),并展示了导致不同错误答案(Candidate B, C)和正确答案(Candidate A)的LLM具体回答样本。
  • 实验结论:通过分析LLM的回答,可以看到,错误的推理往往源于对规则的误解或在复杂状态下的混乱。投票图则生动地展示了一场“拉锯战”,多个错误答案在初期获得了不少票数,但随着采样的增加,正确的“信号”最终战胜了“噪声”,脱颖而出。这个案例研究直观地展示了MAKER系统在面对极端困难和迷惑性输入时的鲁棒性和自我修正能力

如何高效转型Al大模型领域?

作为一名在一线互联网行业奋斗多年的老兵,我深知持续学习和进步的重要性,尤其是在复杂且深入的Al大模型开发领域。为什么精准学习如此关键?

  • 系统的技术路线图:帮助你从入门到精通,明确所需掌握的知识点。
  • 高效有序的学习路径:避免无效学习,节省时间,提升效率。
  • 完整的知识体系:建立系统的知识框架,为职业发展打下坚实基础。

AI大模型从业者的核心竞争力

  • 持续学习能力:Al技术日新月异,保持学习是关键。
  • 跨领域思维:Al大模型需要结合业务场景,具备跨领域思考能力的从业者更受欢迎。
  • 解决问题的能力:AI大模型的应用需要解决实际问题,你的编程经验将大放异彩。

以前总有人问我说:老师能不能帮我预测预测将来的风口在哪里?

现在没什么可说了,一定是Al;我们国家已经提出来:算力即国力!

未来已来,大模型在未来必然走向人类的生活中,无论你是前端,后端还是数据分析,都可以在这个领域上来,我还是那句话,在大语言AI模型时代,只要你有想法,你就有结果!只要你愿意去学习,你就能卷动的过别人!

现在,你需要的只是一份清晰的转型计划和一群志同道合的伙伴。作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐