极致任务分解策略，让LLM在百万步推理任务中零错误！

今天我们解读一篇非常震撼的论文，它解决了一个长期困扰AI领域的问题：如何让大型语言模型（LLM）在执行超长任务时不出错。

朝阳区靓仔_James

1233人浏览 · 2025-11-19 10:08:45

朝阳区靓仔_James · 2025-11-19 10:08:45 发布

❝

一句话概括，作者们不再执着于让AI“学会思考”，而是专注于让AI“正确执行”，他们通过将一个百万步任务分解成独立、无记忆的单步决策，并引入“投票容错”机制，成功地将LLM从一个充满不确定性的“创造者”改造为一个极其可靠的“执行者”，证明了系统设计的力量可以超越模型本身智能的局限。（原论文题目见文末，点击阅读原文可直接跳转至原文链接， Published on arxiv on 12 Nov 2025, by Cognizant AI Lab & UT Austin）

第一阶段：识别核心概念

1.论文的Motivation分析

今天我们解读一篇非常震撼的论文，它解决了一个长期困扰AI领域的问题：如何让大型语言模型（LLM）在执行超长任务时不出错。

现在的LLM非常聪明，无论是写代码、写文章还是进行推理，都表现得相当出色。但它们有一个致命的弱点：无法“善始善终”。想象一下，你让一个LLM执行一个包含一百万个步骤的任务，即使它在每一步的正确率高达99.9%，在整个任务不出错的概率也几乎为零。这就是所谓的“复合错误”的诅咒——微小的错误在长链条中不断累积，最终导致整个任务的崩溃。

目前的AI研究主流方向是“大力出奇迹”：通过增加模型参数、投入更多数据和算力，让LLM本身变得更“智能”。这就像是试图培养一位全知全能的“宗师”，希望他能独自完成所有复杂任务。然而，这篇论文的作者们认为，这条路在面对超长任务时可能走不通。

因此，他们提出了一个全新的、正交的（Orthogonal）思路：我们真的需要一个无所不能的“宗主”吗？还是说，我们可以将一项史诗级任务分解成一百万个微不足道的小任务，然后雇佣一百万个廉价但合格的“学徒”，并建立一套高效的纠错机制，来共同完成这项壮举？这就是本文的核心动机——不再追求单个模型的完美，而是通过系统架构的设计，实现群体智慧的极致可靠性。

2.论文主要贡献点分析

这篇论文的贡献是系统性的，可以概括为以下三点：

提出了一个全新的AI系统框架：大规模分解式智能体过程（MDAPs）
这不只是一个模型，而是一种全新的理念。作者主张，与其让一个庞大的“单体智能体”处理所有事情，不如将任务分解到极致，让无数个“微智能体”各自处理一个极小的步骤。
实现并验证了该框架的核心技术：MAKER系统
关键技术一：极限任务分解（Maximal Agentic Decomposition）——这是基石。将一个复杂的、需要长期记忆和推理的任务，拆解成一系列独立的、仅需当前状态就能解决的"一步"子任务。
关键技术二：高效容错投票机制（First-to-ahead-by-k Voting）——这是保障。既然每个"学徒"（小模型）都可能犯错，那就让多个学徒独立完成同一个小任务，然后通过投票选出最可靠的答案。这种机制极大地提升了单步任务的成功率。
关键技术三：风险信号识别（Red-Flagging）——这是"防火墙"。在投票前，系统会预先筛掉那些看起来就不靠谱的答案（比如格式错误、胡言乱语），这能有效避免"集体犯错"的风险。
取得了里程碑式的显著结果
论文最令人瞩目的成果是：成功地让LLM系统完成了超过一百万步的“汉诺塔”任务，且全程零错误。这在之前是不可想象的。
这个结果证明了一种“多智能体优势”（Multi-agent Advantage）：即一个由多个简单智能体组成的系统，能够解决单个、更强大的智能体无法解决的问题。这为AI的规模化扩展开辟了一条全新的道路。

3.理解难点识别

要真正理解这篇论文的精髓，我们需要弄清楚以下几个关键点：

核心挑战：可靠性的规模化定律（Scaling Law of Reliability）

论文最核心、也最具挑战性的部分，是理解"极限分解"和"投票机制"如何从数学上保证系统能在百万步的尺度上保持高可靠性。关键问题：单步成功率（）、投票数（）、总步数（）和总成本之间存在什么样的数学关系？为什么这种关系使得长程任务成为可能？这背后的"规模化定律"是理解本文技术深度的关键。

重点解释概念：极限分解 + 投票容错

我们需要重点解释，为什么“把任务拆得极碎”是至关重要的？以及，“领先k票即胜出”的投票机制是如何在成本可控的前提下，将一个普通模型的微弱优势，指数级地放大成接近100%的把握。

概念依赖关系

这些核心概念之间存在着清晰的逻辑链条：

极限任务分解是前提。只有将任务分解成独立的、无历史依赖的微小子任务，后续的并行处理和独立投票才成为可能。
投票容错机制是核心。它建立在分解的基础上，通过群体决策来对抗单个智能体的随机错误，是实现高可靠性的主要手段。
风险信号识别是辅助。它作为投票机制的“前哨”，通过过滤掉明显错误的样本来提高投票的效率和鲁棒性，特别是在对抗“相关错误”（correlated errors）时至关重要。

因此，我们的最佳切入点就是从“极限任务分解”开始，然后深入探讨“投票容错机制”背后的数学原理，因为它完美地连接了所有关键概念，并揭示了系统能够成功的根本原因。

第二阶段：深入解释核心概念

设计生活化比喻：众包翻译一部百万页的百科全书

想象一下，我们有一个宏大的任务：要将一部包含一百万页内容的古老百科全书，从一种语言精确无误地翻译成另一种语言。

传统的“宗师”方案：我们聘请一位全球顶级的翻译宗师。他学识渊博，经验丰富，但即便如此，让他连续工作翻译一百万页，难免会因为疲劳或疏忽，在某个地方犯个小错。而一个小小的翻译错误，可能会导致后续章节的理解产生偏差，最终毁了整部巨著的价值。这就像依赖单个强大的LLM，其“复合错误”的风险极高。
MAKER的"众包"方案：我们放弃寻找完美的宗师。取而代之，我们这样做：
任务分解 (Decomposition)：我们不按章节或段落分配任务，而是把任务拆到最细的粒度——每一句话。一百万页的书，可能被拆分成了数千万个独立的句子翻译任务。
众包执行 (Agent Execution)：我们在一个大型众包平台上发布这些句子翻译任务。平台上有成千上万名刚入门的初级译者。他们收费便宜，但水平一般，翻译一句话可能会犯错。
同行评审 (Voting)：为了确保质量，我们不只让一个初级译者翻译一句话。而是随机找来一小群（比如5-10个）初级译者，让他们独立地翻译同一句话。
主编裁决 (Error Correction)我们设立一个"主编"角色。主编不亲自翻译，只负责看这些初级译者提交的译文。他的裁决规则很简单：“对于任何一句话，只要有一个译文版本得到的支持票数，比第二名的票数多出票（比如3票），我就采纳这个版本。” 如果暂时没有版本满足这个条件，那就继续找新的初级译者来翻译，直到分出胜负。
预审过滤 (Red-Flagging)：在主编看到译文之前，还有个实习生会做一轮预审。如果发现某个译者提交的内容乱七八糟、文不对题或者长度离谱，就直接扔进垃圾桶，根本不参与后续的投票。

这个“众包翻译”项目，就是MAKER系统工作方式的生动写照。

建立比喻与实际技术的对应关系

百科全书 <-> 整个百万步的长程任务 (如20层汉诺塔)
翻译一句话 <-> 一个独立的子任务 (如移动一次汉诺塔盘子)，这就是**极限分解 (Maximal Decomposition)**。
初级译者 <-> 一个基础的、廉价的LLM (如 gpt-4.1-mini)。它有一定能力，但不是完美的，会犯错。
初级译者的翻译水平 (正确率) <-> **基础LLM的单步成功率 ()**。
为一句话找多个译者 <-> 对一个子任务进行多次独立采样调用LLM。
主编 <-> 投票系统。
“领先k票胜出”的规则 <-> “First-to-ahead-by-k”投票算法。
实习生的预审 <-> 风险信号识别 (Red-Flagging) 机制。
最终出版的、零错误的百科全书 <-> MAKER系统最终生成的、零错误的百万步任务解。

这个对应关系是合理的，因为它精准地捕捉了MAKER系统的核心思想：用冗余和群体决策，来弥补个体能力的不足，从而实现系统层面的超高可靠性。

深入技术细节

核心公式1：单步投票的成功率

首先，我们来看投票如何极大地提升了“翻译一句话”的正确率。假设一个初级译者的水平（单步成功率）是，我们采用“领先票胜出”的规则。那么，通过投票选出正确答案的概率可以用下面的公式（原文Eq. 9）来近似：

原始数学形式:
符号替换版本:

投票选对的概率单个犯错的概率单个做对的概率
解读：这个比值是关键。它代表了"犯错的可能性与做对的可能性的比值"。只要我们的"初级译者"不是在瞎猜，即，那么这个比值就是一个小于1的数。次方是点睛之笔。一个小于1的数，它的次方会随着的增大而指数级地趋近于0。映射回比喻：假设一个初级译者的正确率是90%（0.9），那么犯错率就是10%（0.1）。这个比值是。如果我们设置，那么大约是0.0013。最终投票选对的概率大约是，高达 **99.87%**！看到了吗？我们仅仅通过让几个水平为90%的译者进行投票，就把单步任务的成功率从90%提升到了99.87%！如果本身更高，或者我们增加，这个成功率可以无限接近100%。

核心公式2：整个任务的成功率

现在，我们把目光从“一句话”放大到“整本百科全书”。整个任务的最终成功率是单步成功率的连乘（原文Eq. 13的特例）：

原始数学形式 (代表极限分解):
符号替换版本:

完成整个任务的总成功率搞定一个子任务的成功率（经过投票后）任务总步数
解读：这就是我们之前提到的"复合错误"诅咒的数学形式。但现在，因为投票机制的存在，已经被我们提升到了一个极高的水平（比如99.9999%）。映射回比喻：即使我们的百科全书有一百万页（ = 1,000,000），只要我们能通过投票把翻译每一句话的正确率提升到足够高，最终整本书零错误的概率依然可以保持在一个很高的水平（比如90%以上）。我们成功地用投票机制逆转了复合错误的诅咒。

核心公式3：成本的规模化定律

这一切听起来很美好，但代价呢？雇佣那么多初级译者，成本会不会爆炸？论文给出了一个令人振奋的答案：成本增长是极其温和的（原文Eq. 18）。

原始数学形式:
符号替换版本:

完成整个任务的预期总成本常数总步数总步数
解读： (读作 s log s) 是一个著名的增长率，它比线性增长 () 稍快，但远比指数增长慢。 (即 ) 部分的来源，正是维持高成功率所需的领先票数。论文推导出，当任务长度增加时，只需要按照的速度缓慢增长即可。映射回比喻：这意味着，如果我们的百科全书从一百万页增加到一千万页（变为10倍），我们并不需要将每个句子的评审标准（值）也提高10倍。我们只需要将值稍微增加一点点（），就能维持同样的整体质量。因此，总成本几乎是随着任务长度线性增长的，这使得该方法在经济上完全可行。

将技术细节与比喻相互映射

投票如何工作：主编（投票系统）收集多个译文（LLM输出），统计票数，直到某个版本（某个具体行动）的票数比第二名多票。
数学原理的体现：意味着初级译者（LLM）的水平比瞎猜要好，这是投票能够收敛的基础。值的设置，就像主编的信心阈值，越大，单步任务的结论就越可靠，但成本也越高。的成本定律告诉我们，这个信心阈值不用随着任务规模的扩大而急剧提高，这是一个巨大的好消息。
比喻的局限性：我们的比喻假设每个初级译者犯的错误是完全独立的。但在现实中，如果某个句子的表达本身有歧义，很多译者可能会犯同样的错误。这对应了LLM的“相关错误（correlated errors）”。这正是“实习生预审”（Red-Flagging）机制要解决的问题。它通过过滤掉那些因为共同困惑而产生的、模式相似的错误输出来打破这种相关性。

总结

通过“众包翻译百科全书”的比喻，我们可以深刻地理解MAKER系统的核心魔法：

它不依赖于昂贵且依然会犯错的“宗师”（大模型），而是巧妙地利用了大量廉价的“初级译者”（小模型）。
核心数学原理在于，通过**“领先k票胜出”的投票机制**，将单个译者微弱的正确率优势 ()，指数级地放大为单步任务极高的成功率。
最终，这种极高的单步成功率足以抵抗住长程任务中“复合错误”的诅咒，并且整个过程的**成本增长是温和可控的 ()**。

这套组合拳，就是MAKER能够完成百万步零错误任务的秘密所在。

第三阶段：详细说明流程步骤

假设当前是任务的第步，我们的目标是根据当前汉诺塔的盘子状态和上一步的移动，来决定这一步的正确移动和移动后的新状态。

输入：

**当前状态 **：一个表示三个柱子上盘子分布的列表，例如 [[3, 2], [1], []]。
**上一步移动 **：一个记录了上一步移动信息的列表，例如 [1, 0, 2]（表示将1号盘从0号柱移动到2号柱）。

处理流程：

构建提示语（Prompt Generation）

系统会根据一个固定的模板，将当前状态和上一步移动填入一个精心设计的Prompt中。这个Prompt不仅包含了当前局面，还明确地给出了解题的通用策略（例如，“如果上一步移动的不是1号盘，则这一步必须移动1号盘到顺时针方向的下一个柱子”）。这个策略对所有步骤都是一样的，确保了每个“微智能体”都知道游戏规则。

并行采样（Parallel Sampling）

系统进入一个循环，核心是“直到选出唯一胜者”。
在循环的每一轮，系统会并行地向基础LLM（如 gpt-4.1-mini）的API发送大量请求（例如，同时发送10个请求）。所有这些请求使用的都是上一步构建的完全相同的Prompt。
这就像是把“求解第步”这个任务同时交给了10个独立的“微智能体”去思考。

响应接收与预处理（Red-Flagging）

LLM的响应陆续返回。每个响应理论上都应该包含两部分内容：move = [...] 和 next_state = [...]。
在这个阶段，**"风险信号识别"模块（Red-Flagging Parser）开始工作，它像一个严格的门卫，对每个响应进行检查：格式检查——响应是否严格遵循了 move 和 next_state 的格式？如果没有，直接丢弃**；长度检查——响应的token数量是否超过了一个设定的阈值（比如750）？如果超过，说明LLM可能陷入了"长篇大论"的混乱状态，直接丢弃；内容检查——解析出的 move 和 next_state 是否是合法的列表？如果不合法，也**丢弃**。
只有通过了所有检查的、格式完美的响应，才被认为是“有效投票”，并被送往下一步。

投票与裁决（Voting and Decision）

系统维护一个计票板，记录每一种不同的 move 方案获得的票数。
每当一个“有效投票”进来，系统就解析出其提议的 move，并在计票板上为该方案加一票。
关键裁决步骤：每投完一票，系统都会立刻检查计票板，判断是否满足"领先k票胜出"的条件（论文中设置）。假设当前计票板上，方案A有5票，方案B有2票，方案C有1票。此时，方案A的票数领先第二名方案B的票数达到了票（）。裁决条件满足！ 系统立即宣布方案A胜出。
如果检查后发现，没有任何方案满足领先票的条件（比如A有3票，B有2票，差距不够），那么裁决不发生。

循环或结束

如果已裁决出胜者：系统将胜出的 move 方案定为本步骤的最终行动。同时，从投出该 move 的众多响应中，任选一个对应的 next_state 作为本步骤的结果状态。本步骤处理结束。
如果尚未裁决出胜者：系统返回到步骤2（并行采样），再次发起新一轮的API请求，收集更多的"有效投票"，继续累加到计票板上，直到某一方案满足裁决条件为止。

输出：

**本步行动 **：经过投票确认的、最可靠的移动方案。
**新状态 **：执行后的汉诺塔盘子分布。

这个输出将作为第步的输入，整个流程将丝滑地衔接并重复下去，直到完成全部一百万多步，解开整个汉诺塔谜题。这个流程的核心在于其鲁棒性：即使少数LLM调用出错，也会被投票机制过滤掉；即使某个步骤特别有迷惑性，导致投票竞争激烈，系统也会通过增加采样轮次来“大力出奇迹”，直到找到一个足够可靠的答案。

第四阶段：实验设计与验证分析

主实验设计解读：核心论点的验证

核心主张

MAKER系统（作为MDAP框架的实现）能够解决传统单体LLM无法完成的超长程、零容错任务。

实验设计

任务选择：20层汉诺塔问题。这是一个绝佳的选择。合理性分析：可扩展性——汉诺塔的步数随着层数指数级增长 ()，20层恰好对应约105万步，足以构成"超长程"挑战；确定性——每一步都有唯一的最优解，便于精确评估"零错误"；领域公认——汉诺塔是经典的规划和推理问题，被用作评估LLM长程推理能力的基准。
评价指标：最终任务成功率。这是一个极其严苛的二元指标——要么100%成功（完成所有步骤且零错误），要么0%失败。这直接对应了论文标题中的“Zero Errors”。
基线方法（Baselines）：论文巧妙地将所有现有的LLM都作为了隐性基线。在图1中，作者引用了其他研究的数据，表明即便是最强的LLM（如GPT-4），在汉诺塔任务上最多也只能连续正确几百步，之后错误率就会导致任务失败。MAKER的目标不是比它们“好一点”，而是要实现质的跨越——从“必然失败”到“成功解决”。
主实验结果：MAKER系统使用gpt-4.1-mini作为基础模型，成功地、无差错地解决了20层汉诺塔问题。
结论：这个结果无可辩驳地证明了论文的核心主张。它不是在现有基线上提升了几个百分点，而是完成了一件被认为是“不可能”的事情，展示了论文所称的“多智能体优势”。

消融实验分析：内部组件的贡献

论文中一个非常关键的消融分析，集中在**“风险信号识别”（Red-Flagging）**这个组件上。

消融设计

被“消融”的模块：严格的错误过滤机制。
如何实现：作者对比了两种不同的输出解析器（Parser）。**“修复型解析器”（Repairing Parser）——相当于没有Red-Flagging**。它会尝试去理解和修复格式不规范的LLM输出，尽可能从中提取一个答案。“标记型解析器”（Flagging Parser）——这就是**带Red-Flagging**的实现。它对格式要求极其严格，任何不合规的输出都直接标记为无效并丢弃。

实验结果分析（见图9）

图9a显示，当LLM的回答长度超过700个token时，其错误率会急剧上升。严格的长度限制（Red-Flagging的一种）能有效过滤掉这些高风险的回答。
图9b是关键。它展示了"碰撞次数"（Collisions），即在前两轮投票中，两个投票都是错误答案的步骤数量。使用"修复型解析器"时，碰撞次数随着回答长度上限的放宽而显著增加。这表明LLM在某些困难步骤上会陷入思维定势，产生相关的、系统性的错误（correlated errors）。多个智能体犯了同一种错误。而使用"标记型解析器"时，碰撞次数一直保持在极低的水平。

结论

这个消融实验有力地证明了Red-Flagging的必要性。它的作用远不止是提高单步成功率，其更核心的贡献在于打破错误的“相关性”。通过将那些“看似努力思考但已走火入魔”的混乱回答拒之门外，系统避免了在困难问题上被集体误导，从而保证了投票机制的独立性和有效性。

深度/创新性实验剖析：洞察方法的内在特性

巧妙实验一：成本效益分析与模型选择（图6b）

实验目的：证明MAKER框架不仅技术上可行，而且在经济上是聪明的。它提供了一种量化方法来选择“性价比”最高的LLM。
实验设计：作者没有直接选择最强大或最便宜的模型。他们先在少量样本上，为多个不同的LLM（从昂贵的haiku-4.5到廉价的gpt-oss-20B）估算出关键参数：单步成功率和平均token成本。然后，他们利用成本规模化定律（公式18）来预测完成整个百万步任务的总成本。
实验结论：这是一个惊人的发现！最终的“赢家”是gpt-4.1-mini和gpt-oss-20B。它们不是最强的（不是最高），也不是单位价格最便宜的，但它们在可靠性与成本之间取得了最佳平衡。这完美印证了论文的核心哲学：不需要昂贵的“宗师”，一群廉价可靠的“学徒”是更优的选择。这个实验为如何在实践中应用MDAP框架提供了清晰的指导。

巧妙实验二：收敛过程的可视化验证（图8）

实验目的：在真实的百万步任务中，经验性地验证投票过程的效率是否符合理论预期的指数级收敛。
实验设计：在整个20层汉诺塔任务的运行过程中，作者记录了在每一轮投票之后，还有多少个步骤“尚未作出决定”。
实验结论：图8a和8b清晰地显示，未决定步骤的数量随着投票轮次的增加呈指数级下降。绝大多数步骤在前轮投票内就解决了。这证明了投票机制在实践中是极其高效的，大部分成本都花在了最初的几轮投票上。同时，图中也显示有极少数“顽固”步骤需要十几轮投票，这再次凸显了Red-Flagging机制处理这些“异常值”的重要性。

巧妙实验三：对“病态”步骤的案例研究（图11及附录D）

实验目的：深入分析那个最困难的、需要18轮投票才解决的步骤（Step 10241），以理解错误的来源和投票机制的韧性。
实验设计：作者单独绘制了这一“病态”步骤的投票过程图（图11），并展示了导致不同错误答案（Candidate B, C）和正确答案（Candidate A）的LLM具体回答样本。
实验结论：通过分析LLM的回答，可以看到，错误的推理往往源于对规则的误解或在复杂状态下的混乱。投票图则生动地展示了一场“拉锯战”，多个错误答案在初期获得了不少票数，但随着采样的增加，正确的“信号”最终战胜了“噪声”，脱颖而出。这个案例研究直观地展示了MAKER系统在面对极端困难和迷惑性输入时的鲁棒性和自我修正能力。

如何高效转型Al大模型领域？

作为一名在一线互联网行业奋斗多年的老兵，我深知持续学习和进步的重要性，尤其是在复杂且深入的Al大模型开发领域。为什么精准学习如此关键？

系统的技术路线图：帮助你从入门到精通，明确所需掌握的知识点。
高效有序的学习路径：避免无效学习，节省时间，提升效率。
完整的知识体系：建立系统的知识框架，为职业发展打下坚实基础。

AI大模型从业者的核心竞争力

持续学习能力：Al技术日新月异，保持学习是关键。
跨领域思维：Al大模型需要结合业务场景，具备跨领域思考能力的从业者更受欢迎。
解决问题的能力：AI大模型的应用需要解决实际问题，你的编程经验将大放异彩。

以前总有人问我说：老师能不能帮我预测预测将来的风口在哪里？

现在没什么可说了，一定是Al；我们国家已经提出来：算力即国力！

未来已来，大模型在未来必然走向人类的生活中，无论你是前端，后端还是数据分析，都可以在这个领域上来，我还是那句话，在大语言AI模型时代，只要你有想法，你就有结果！只要你愿意去学习，你就能卷动的过别人！

现在，你需要的只是一份清晰的转型计划和一群志同道合的伙伴。作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla