AI 大模型训练与部署方案深度分析 2024

‍‍并行计算是大模型训练部署过程中最重要的支撑技术之一，不仅关系大模型的计算效率，还决定了计算平台能否为大模型提供有效支撑。本章首先分析介绍了并行计算与大模型之间的关系以及目前可用的并行计算框架。接下来从实际部署大模型的角度出发，总结了该过程中可能出现的问题及相关可用资源。最后为了更加有效地使用大模型，详细介绍了针对大模型的压缩和加速方法。

学编程的头没秃

1225人浏览 · 2025-02-16 20:00:00

学编程的头没秃 · 2025-02-16 20:00:00 发布

概述‍‍

并行计算是大模型训练部署过程中最重要的支撑技术之一，不仅关系大模型的计算效率，还决定了计算平台能否为大模型提供有效支撑。本章首先分析介绍了并行计算与大模型之间的关系以及目前可用的并行计算框架。接下来从实际部署大模型的角度出发，总结了该过程中可能出现的问题及相关可用资源。最后为了更加有效地使用大模型，详细介绍了针对大模型的压缩和加速方法。

1.1 大模型并行计算技术

随着 ChatGPT 的大火，大规模预训练模型再次成为学术界和产业界关注的热点。面向 GPU 运算卡的并行计算是大模型训练部署过程中不可逾越的鸿沟。NVIDIA 论文中提到训练自己的 GPT，使用了 3072 张 80GB A100训练 GPT，最大规模的模型参数量达到了 1T（GPT-3 原版的 5 倍）。

如此庞大的参数规模，单独一块 GPU 运算卡甚至完成不了最基本的装载。由此可见，GPU 并行是大模型训练的必备技术。不同于传统并行以加快计算速度为目的，大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布到多张 GPU 卡中，并保持不同 GPU 卡之间有效的通信，整体配合完成大模型的训练部署。

通常 GPU 并行计算有两种策略：

模型并行 这种并行模式将计算任务拆分成若干个更小但不同的任务。尤其是大模型参数量过大的原因，一般不能将一个模型完整地装载至一张 GPU卡，甚至是一个节点（含有多张卡）。此时往往要根据模型的不同功能组件或者对长 Tensor 进行切分，将经过切分的子任务分配到不同的 GPU 卡中。如果不同部分存在数据和功能上的逻辑相关性，也可以组成一道流水线。
数据并行 这种并行模式将数据分解为多个部分，让每个运算单元分别去计算一个或多个小块数据，最后进行汇总。由于不需要对训练过程部分的代码大幅改动，是使用率较高的并行方式。从标准的数据并行（Data Parallel，DP），发展到分布式数据并行（Distributed Data Parallel，DDP），再到目前的完全分片数据并行（Fully Sharded Data Parallel,FSDP）, 在并行通信效率上得到了大幅提升。机器学习中的随机梯度下降法（Stochastic GradientDescent，SGD），极大促进了这类并行策略在深度学习训练过程中的应用。

一般来说，CPU 的多线程编程偏向于第一种并行模式，优点是可以带来更高的并行效率，可以处理超过单个计算节点位宽的数据。缺点是不同计算单元之间的同步和通信机制的设计要求较高，随着并行节点的增加，通信的计算资源消耗快速增加。GPU 并行编程模式则偏向于第二种，优点是并行算法设计相对简单，容易增加新的计算节点。缺点是要求每个计算节点必须有足够的容量，可以装载整个模型。这对大模型而言往往是不可实现的。

因此现实中，大模型的训练部署往往采用混合方式。例如将整个 GPU 集群以数据并行的方式分成若干块，每块装入一个大模型。块内按照任务并行的方式，将大模型分解成如干与每块 GPU 容量匹配的子任务，每块 GPU 对应一个子任务，可以是大模型不同的网络组件，甚至可以是长 Tensor 分成多个短 Tensor 进行并行计算。如果设计合理，还可以做到不同网络组件的流水线并行，通过一种“接力”的方式并行提高计算效率。

即使目前业界已有的 GPU 分布式训练方案，也严重依赖于服务器之间的通信、拓扑、模型并行、流水并行等底层问题的解决情况。 如果只有分布式训练框架，甚至都无法正常启动训练过程。这也是为什么 GPT-3 已经发布了一年，却只有少数企业可以复现 GPT-3。目前，已经公布明确已经完成千亿参数规模大模型训练的框架主要是 NVIDIA 开发的 Megatron-LM 、经过微软深度定制开发的 DeepSpeed、国产百度飞浆 PaddlePaddle 和华为昇思 MindSpore。大多数并行框架都支持 PyTorch 分布式训练，可以完成百亿参数规模的模型训练。

1.2 并行计算框架

PyTorch ‍

PyTorch 自身提供了几种加速分布数据并行的技术，包括分桶梯度（bucketing gradients）、通信和计算的重叠（overlapping computation withcommunication）以及在梯度累积（gradient accumulation）阶段跳过梯度同步（skipping gradient synchronization）。PyTorch 分布式数据并行可以用256 个 GPU 达到接近线性的可扩展性程度。在 DP 的基础上，原生支持 DDP，每个节点都有自己的本地模型副本和本地优化器，支持多机多卡的分布式训练。一般来说，DDP 都显著快于 DP，能达到略低于卡数的加速比，但要求每块 GPU 卡都能装载完整输入维度的参数集合。在 1.11 版本后，PyTorch 开始支持 FSDP 技术，可以更加高效的将部分使用完毕的参数移至内存中，显著减小了显存的峰值占用，更加吻合大模型的特性。

TensorFlow ‍

TensorFlow 是一个为大规模数值计算设计的流行开源库。TensorFlow支持异构设备的并行计算，可以在不同类型和尺寸的机器上运行，无论是超级计算机，还是嵌入式系统。它希望用户只需关注模型的构建和优化，透明化复杂的并行计算细节。此外，TensorFlow 可以实现多机并行线性加速，提高分布式训练的效率。原始的 TensorFlow 是基于静态图设计的，有着更高的底层运行效率。但缺点是不易调试。最新版本的 TensorFlow 已经开始同时支持静态图和动态图了，是开源时间较长的并行框架。

飞桨 PaddlePaddle ‍

飞桨（PaddlePaddle，Parallel Distributed Deep Learning）是我国较早开源开放、自主研发、功能完备的产业级深度学习框架。飞桨不仅在业内最早支持了万亿级稀疏参数模型的训练能力，而且近期又创新性的提出了 4D混合并行策略，以训练千亿级稠密参数模型，可以说分布式训练是飞桨最具特色的技术之一。

飞桨的分布式训练技术在对外提供之前就已经在百度内部广泛应用，如搜索引擎、信息流推荐、百度翻译、百度地图、好看视频、文心 ERNIE 等等，既包含网络复杂、稠密参数特点的计算机视觉（CV）自然语言处理（NLP）模型训练场景，又覆盖了有着庞大的 Embedding 层模型和超大数据量的推荐搜索训练场景，可谓是分布式训练技术得天独厚的“练功房”。

昇思 MindSpore‍

昇思 (MindSpore) 是一个全场景深度学习框架，旨在实现易开发、高效执行、全场景覆盖三大目标。其中易开发表现为 API 友好、调试难度低，高效执行包括计算效率、数据预处理效率和分布式训练效率，全场景则指框架同时支持云、边缘以及端侧场景。

昇思 MindSpore 的特性之一就是融合了数据并行、模型并行和混合并行，构建一种易用高效的分布式并行训练模式，让算法人员不再需要关注算法模型到底需要用哪种模式训练。可以简化分布式并行编程，串行代码实现分布式训练，对用户屏蔽并行细节，并且保持高性能；计算逻辑上保持和单卡串行流程一致；实现上统一数据并行和模型并行，一套框架支持多种并行模式；结合集群拓扑优化性能。

OneFlow‍

OneFlow 一直主打分布式和高性能。对于多机多卡训练场景，是国内较早发布的并行计算框架。OneFlow 会把整个分布式集群逻辑抽象成为一个超级设备，用户可以从逻辑视角的角度使用超级设备。最新版本的 OneFlow和 TensorFlow 一样，实现了同时 dui 动态图和静态图的支持，而且动静图之间转换十分方便。

此外，OneFlow 完全兼容 PyTorch，将 PyTorch 程序转移至 OneFlow 框架的代价较低。OneFlow 支持数据 + 模型的混合并行方式，便于提升并行计算性能。OneFlow 在框架层面也做了大量优化，nn.Graph提供了简洁、丰富的性能优化选项，如算子融合（Kernel Fusion）、自动混合精度训练 (Auto Mixed Precision Training) 等。

夸父 Colossal-AI ‍

“夸父”（Colossal-AI），提供了一系列并行组件，通过多维并行、大规模优化器、自适应任务调度、消除冗余内存等优化方式，提升并行训练效率，并解耦了系统优化与上层应用框架、下层硬件和编译器，易于扩展和使用。提升人工智能训练效率的同时最小化训练成本。

在三方面进行了优化：优化任务调度、消除冗余内存、降低能量损耗。夸父从大模型实际训练部署过程中的性价比角度出发，力求易用性，无需用户学习繁杂的分布式系统知识，也避免了复杂的代码修改。仅需要极少量的改动，便可以使用夸父将已有的单机 PyTorch 代码快速扩展到并行计算机集群上，无需关心并行编程细节。

Megatron-LM‍

Megratron 是 NVIDIA 提出的一种基于 PyTorch 分布式训练大规模语言模型的架构，用于训练基于 Transformer 架构的巨型语言模型。针对Transformer 进行了专门的优化，主要采用的是模型并行的方案。Megatron设计就是为了支持超大的 Transformer 模型的训练的，因此它不仅支持传统分布式训练的数据并行，也支持模型并行，包括 Tensor 并行和 Pipeline 并行两种模型并行方式。

NVIDIA 发表了多篇论文，较有代表性的有发表于2019 年 9 月的论文，主要提出了通过将矩阵分块提高并行度的方法。发表于 2021 年 4 月的第二篇论文，对于分布式中的一些重要的设计，如 tensorparallel、pipeline parallel、micro batch size 等进行了一些分析与讨论。同时提出了更加精细的 pipeline 结构与 communication 模式[35]。通过多种并行方式的结合，可以让大模型的训练更快。发表于 2022 年 7 月的第三篇文章将核心操作 LayerNorm 和 Dropout 安装输入维度进一步切分，使得这两个需要频繁运行的操作在不大幅增加通信开销的情况下实现了并行。

DeepSpeed‍

在 2021 年 2 月份，微软发布了一款名为 DeepSpeed 的超大规模模型训练工具，其中包含了一种新的显存优化技术——零冗余优化器 ((ZeroRedundancy Optimizer,ZeRO）。该技术去除了在分布式数据并行训练过程中存储的大量冗余信息，从而极大地推进了大模型训练的能力。从这个角度出发，微软陆续发布了 ZeRO-1，ZeRO-2，ZeRO-3 和 ZeRO-3 Offload，基本实现了 GPU 规模和模型性能的线性增长。

基于 DeepSpeed，微软开发了具有 170 亿参数的自然语言生成模型，名为 Turing-NLG。2021 年 5月，推出了能够支持训练 2000 亿级别参数规模的 ZeRO-2。目前最新版本ZeRO-3 Offload 可以实现在 512 颗 V100 上训练万亿参数规模的大模型。

Horovod‍

Horovod 是一个基于 TensorFlow, Keras, PyTorch 以及 Apache MXNet的并行计算框架。Horovod 力求将单机程序快速简单地转化并行计算。由 LFAI & Data Foundation 基金会（LF AI and Data）维护。鼓励所有致力于人工智能、机器和深度学习的公司，参与到开源项目社区。Horovod 使用的MPI 模型比 TensorFlow 的参数服务器模型更简单。

使用 Horovod 编写的深度学习模型训练脚本可以在几乎不进行任何改动的情况下顺利地在单个GPU、多个 GPU 甚至多个主机上运行。实验表明在拥有 128 个节点（每个节点 4 块 Pascal GPU）的集群上，在 Inception V3 和 ResNet-101 两个任务上，Horovod 几乎表现出了线性加速比。

表 1.1对以上并行框架的信息进行了汇总‍

1.3 模型部署

模型部署是决定大模型能否使用的关键因素之一，大模型因模型参数量大，对软硬件资源的配置有很高的要求。这一节我们将首先介绍部署大规模预训练模型面临的困难与挑战，以及常用的解决方案。

1.3.1 预训练模型部署的困难

大规模预训练模型已经成为深度学习应用中最常用的技术之一。尽管它们在计算机视觉、自然语言处理和语音处理等领域中表现出色，但将它们部署到生产环境中仍然面临许多问题的挑战，包括以下几个方面：

1. 模型大小： 预训练模型通常非常庞大，GPT-3 等模型包含上千亿个参数，因此在部署时可能会面临存储和传输上的困难

2. 推理速度： 模型推理速度是评估一个机器学习模型性能的重要指标之一。在实际应用中，模型的推理速度往往直接影响着用户的体验和系统的效率。高效的模型推理速度可以缩短处理时间，提高用户满意度，减少计算资源的浪费。微软发布的多语言机器翻译模型 DeltaLM 在英语到中文的翻译方向上大约耗时 150ms/token（V100 GPU，PyTorch框架），在华为 NPU 架构上耗时大约在 0.2-16 s/token 之间。

3. 计算资源： 预训练模型需要大量的计算资源来进行推理，这可能会导致部署时的计算瓶颈和性能问题。

由于篇幅有限，⚡️ 朋友们如果有需要文章所有资源的，扫码获取~
在这里插入图片描述

图 1.1: 近年大模型的参数规模增长趋势

4. 硬件兼容性： 预训练模型的部署需要适应多种不同的硬件平台，包括CPU、GPU、ASIC 等，因此需要适配和优化。

5. 数据隐私： 预训练模型通常需要使用大量的数据进行训练，在部署时需要考虑数据隐私和保护的问题。

6. 版本管理： 预训练模型可能会不断更新和改进，因此在部署时需要考虑版本管理和更新的问题。

1.3.2 部署框架和部署工具

部署流程大模型的部署一般包括以下步骤：

1. 模型选择： 选择一个适合自己业务需求的预训练模型，训练一个模型的参数。

2. 模型转换和优化： 由于不同的深度学习框架和硬件设备之间存在差异，需要将权重文件转换为目标框架和设备可用的格式，同时进行一定的优化操作，以提高模型的性能和速度。

3. 数据预处理和集成： 根据业务需求，对输入数据进行预处理和格式转换，将其转换为模型可接受的格式，并将模型与数据处理代码集成到一个可执行的应用程序中。

4. 模型部署和测试： 将打包好的应用程序部署到目标设备上，并进行测试和验证，确保模型的正确性和稳定性。

5. 模型更新和维护： 根据实际使用情况，对模型进行更新和优化，并及时修复可能出现的问题和 bug，保证模型的持续可用性和性能。

图 1.2: 模型部署流水线

部署框架选择合适的部署框架和工具来简化部署过程，并提供模型管理、调试和监控功能。一些常见的部署框架和工具包括 TensorFlow Serving、ONNXRuntime、OpenVINO、TensorRT、TorchScript 等。

部署方式

Online 方式： 首先在移动端做初步预处理，然后把数据传到服务器进行预测后返回移动端。
Offline 方式： 根据硬件的性能选择模型，在服务器训练得到模型，在移动端进行预测的过程。

1.3.3 部署技术和优化方法

代码优化代码优化是一种通过优化神经网络中的算子实现高效部署的技术。在预训练模型中，算子是指网络中的基本计算单元，通常包括全连接、卷积、池化、归一化等操作。这些算子的优化对于提高模型的效率和性能至关重要。

一般来讲，算子代码优化可以通过以下方式实现：

1. 使用高效的算法： 在实现算子时，使用高效的算法可以减少计算复杂度和内存占用，从而提高神经网络的性能。

2. 使用更高效的语言实现算子： 例如使用 C++ 和 C 等来替代 python实现算子，可以更好地利用计算资源和硬件加速器，提高神经网络的性能。CUDA 和 Triton 就分别是用 C++ 和 python 实现的优化后的算子。

硬件加速 硬件加速是一种通过使用专用硬件来提高神经网络的性能的技术。通常情况下，硬件加速可以通过以下方式实现：

1. TPU 加速： TPU 是由 Google 设计的专门为深度学习应用优化的 ASIC芯片。与通用的 CPU 和 GPU 不同，TPU 专门针对深度学习计算的特殊需求进行了设计和优化。

2. ASIC（Application-Specific Integrated Circuit）加速： ASIC 是一种定制化的集成电路，专门为某个特定应用场景而设计制造。与通用的处理器和逻辑电路不同，ASIC 可以实现高度优化的电路结构和算法，以提高性能和能效。

3. FPGA（Field-Programmable Gate Array）加速： 是一种可编程逻辑芯片，它可以通过编程方式实现各种逻辑电路。与固定功能的集成电路（ASIC）不同，FPGA 具有高度灵活性和可编程性，可以在硬件层面实现不同的应用场景。

FPGA 通常由大量的逻辑单元（Look-UpTables, LUTs）和存储单元（Flip-Flops）组成。逻辑单元可以实现基本的布尔逻辑运算和算术运算，而存储单元可以存储中间结果和状态变量。FPGA 还包含了大量的内部通信线路和 I/O 引脚，可以与其他电路和设备进行通信。

云服务云服务是指将预训练模型部署到云端服务器上，通过互联网提供给用户使用的服务。云服务可以提供强大的计算能力和存储资源，同时可以根据实际需要灵活调整计算资源的规模和配置。

常见的云服务提供商包括AWS、Azure、Google Cloud 等，它们提供了各种深度学习服务和工具，如模型训练、模型部署、自动缩放。

1. 模型训练服务： 提供 GPU 和 TPU 等硬件资源和深度学习框架，可以帮助用户在云端快速训练深度学习模型。

2. 模型部署服务： 提供各种深度学习模型的部署服务，可以将训练好的模型部署到云端或边缘设备上，以提供各种应用程序的服务。

3. 弹性伸缩服务： 根据用户的需求和流量变化，自动调整计算和存储资源的规模和配置，以提供更加灵活、高效和可靠的服务。

移动端 CPU 推理框架的优化移动端 CPU 推理框架的优化通常通过编译优化来实现，即通过对代码进行优化和重组，以便让 CPU 能更高效地处理模型计算，提高模型推理的速度。

隐私保护随着机器学习在越来越多的场景中被应用，保护用户隐私已经成为一个重要的问题。在预训练模型部署中，也需要考虑如何保护用户隐私，

常用的用户隐私隐私保护技术包括：

1. 差分隐私： 通过添加噪声来隐藏数据集中的个人信息，从而保护用户的隐私。

2. 加密技术： 加密技术是一种保护数据隐私和保密性的技术，它通过使用密钥来将原始数据转换为一种无法读取的形式。只有拥有正确密钥的人才能够解密数据并访问原始信息。

1. 访问控制： 访问控制可以限制对数据和模型的访问，从而保护数据和模型的隐私。

1.4 预训练模型的压缩

1.4.1 模型压缩方案概述

随着深度学习技术的不断发展，大型语言模型（Large Language Model）已成为自然语言处理领域的核心技术。然而，这些模型通常具有数十亿乃至上百亿参数，导致存储和计算成本极高，大多数下游用户难以进行微调。因此，针对大型语言模型的模型压缩成为一种可行的替代方案，便于进一步部署。

针对于模型压缩，常使用的方案有以下几种：

1. 剪枝： 剪枝是一种通过去除模型中一些不必要的连接或神经元来减小模型大小的技术。

2. 蒸馏： 蒸馏是一种通过使用学生模型来模拟预训练教师模型的行为来减小模型大小的技术。通常情况下，学生模型由更小的神经网络或线性模型组成。

3. 量化： 量化是一种将预训练模型中的权重从浮点数转换为低位数的技术。通常情况下，量化的精度是 8 位或更低。量化可以大大减少模型的存储空间和计算量，但可能会对模型的性能产生一定的影响。

4. 权重矩阵分解： 使用包括 SVD 等矩阵分解方法对预训练模型的 FFN层的权重矩阵进行分解，从而减少 Attention 层的参数量，提高模型的效率。

5. 模型参数共享： 以 ALBERT 为例，模型的 Attention 层之间采用了权重共享的方式，从而减少了模型的参数量。在现有资源条件的限制下，模型压缩一般是面向具体的下游任务，即在微调阶段通过压缩模型的规模实现模型的下游任务快速适配。

本文即重点探讨两种常用的针对下游任务微调的模型压缩方法：

知识蒸馏
模型剪枝‍

1.4.2 结构化模型压缩策略

传统的知识蒸馏方法通过对齐模型输出或内部隐层特征，将复杂的“教师模型”知识迁移到较小的“学生模型”以实现模型压缩。然而，当前大型语言模型（如 GPT-3 系列）只提供 API 接口，其参数等处于黑盒状态，难以应用传统知识蒸馏方法。相反，我们可以通过上传下游任务相关数据并利用教师大模型的输出信息和原始数据一起训练小模型，以使其具有一定的能力。

例如，GPT-3 可以利用思维链解决复杂推理问题，而小模型由于大小限制而缺乏这种能力。研究人员通过让 GPT-3 输出中间推理步骤并生成多样的思维链步骤，丰富微调训练数据，并将这些思维链用于小模型的训练，使其具有一定的推理能力。除了未开源模型参数的黑盒模型，如GPT-3，还有一些开源参数的大型语言模型，例如 OPT，BLOOM等。

对于这些模型，我们可以借鉴之前利用中间层特征的方法进行知识蒸馏。但是由于这些模型的参数仍然过大，对于一般下游用户的微调训练仍然是巨大的开销。因此，在进行大型语言模型的知识蒸馏时，不仅要关注小模型在推理阶段的性能和开销，还要关注蒸馏过程中的训练开销。

1.4.3 非结构化模型压缩策略

研究人员主要是围绕已经开源参数的模型，例如 GPT-J、OPT以及 BLOOM等进行模型参数的剪枝。模型剪枝大体上可以针对具体关注的参数单元和子网络情况，可以分为结构化剪枝和非结构化剪枝两种。结构化剪枝方法在较高稀疏度的情况下可以达到可观的提速但是会带来一定程度上的性能下降，而非结构化剪枝的方法虽然可以在较高稀疏度的情况下保持性能，但是又难以在通用的硬件上带来实质性的加速。

同时，在之前研究中常用的迭代式剪枝策略并不是完全合适，因为仍然需要多次训练大模型，也会给下游用户带来较大的训练开销，因而如何 One-shot 地得到一个合适的子网络供下游用户使用值得探索。同时，研究人员还在探索如何将剪枝与其他模型压缩技术，如量化和蒸馏，相结合以进一步提高大型语言模型性能和效率。这些技术的发展有望为推动人工智能技术的发展和应用提供有力支持。

1.4.4 模型压缩小结

目前，针对像 GPT-3这样的超大规模模型进行有效的模型压缩仍然存在一些挑战。这些挑战主要包括以下几个方面：

模型复杂度：超大模型通常拥有数十亿甚至数百亿的参数，导致整个压缩过程的训练的计算量和内存消耗巨大，这对硬件要求非常高。超大模型的结构往往非常复杂，由多个层和子网络组成。因此，压缩模型的过程需要考虑如何剪枝模型、量化模型、知识蒸馏等多种技术手段的结合使用。

**模型压缩技术的局限性：**当前已有的模型压缩技术可能无法直接适用于超大模型。例如，传统的知识蒸馏方法可能无法有效地提取超大模型中的知识，而结构化剪枝等方法在较高稀疏度的情况下可能会带来性能下降。并且有研究表明，大型语言模型存在涌现能力，即当模型参数达到一定规模时才会具有足够强的能力。同时，由于超大模型的结构复杂，可能需要一些特殊的压缩技术来处理。因此，需要有一种通用的压缩方法，适用于各种类型的超大模型。

**模型的黑盒特性：**目前的超大模型如 GPT-3 等均为闭源模型，用户无法获取其具体的参数信息和结构信息。这使得在对模型进行压缩时需要使用一些基于模型输出或中间层特征的方法进行知识迁移和蒸馏，增加了压缩的难度。

针对超大模型的压缩，目前已经有一些研究在进行探索。例如，通过结合剪枝、知识蒸馏和参数共享等多种技术手段，可以在不损失模型性能的情况下将模型参数量压缩数百倍甚至数千倍。

总的来说，针对超大模型的压缩是一个具有挑战性的任务，需要结合多种技术手段进行综合处理。未来的研究将继续探索如何针对超大模型进行更加高效和精确的压缩，以推动人工智能技术的发展和应用。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla