AI大模型单词系列:ScalingLaw,MHA,GQA,RL,GPRO,MoE解释和DeepSeek的关系
AI大模型单词系列:ScalingLaw,MHA,GQA,RL,GPRO,MoE解释和DeepSeek的关系
| 缩写 | 全称 | 简单解释 | 关系 |
|---|---|---|---|
| Token | 词元 | 语言模型处理的基本单位,通常是单词或子词。 | 与参数量、Scaling law等密切相关 |
| 参数量 | Parameters | 模型中可调节的数值,决定模型的复杂度和能力。 | 影响模型规模,与Scaling law共存 |
| Scaling Law | (大模型)规模定律 | 描述模型性能与参数量、数据量之间关系的规律。 | 指导模型扩展,影响大规模结构 |
| MHA | Multi-Head Attention | 一种注意力机制,允许模型同时关注多个信息源。 | 与GQA、MLA等注意力形式相关 |
| GQA | Graph Question Answering | 基于图结构进行问题回答的技术。 | MHA的一种优化衍生或变体 |
| MLA | Meta Learning Algorithm | 一种学习算法,旨在提高模型的学习效率。 | 深化MHA与GQA的分层应用 |
| PT | Pre-Training | 预训练,模型在特定任务前的初步训练过程。 | SFT、RL等往往在预训练完成后进一步发展 |
| SFT | Supervised Fine-Tuning | 监督微调,针对特定任务对预训练模型进行调整。 | 在PT后针对特定任务强化模型表现 |
| RL | Reinforcement Learning | 强化学习,通过奖励机制优化决策过程。 | 衍生出GRPO、DPO、PPO等多种策略优化方法 |
| GRPO | Generalized Policy Optimization | 一种优化策略,旨在提高学习效率。 | 通过梯度方法优化RL策略 |
| DPO | Direct Preference Optimization | 直接偏好优化,优化模型输出的偏好。 | 省去复杂估计环节,快速更新策略 |
| PPO | Proximal Policy Optimization | 一种强化学习算法,优化策略更新。 | 在安全区间内迭代,稳定强化学习过程 |
| KTO | Knowledge Transfer Optimization | 知识迁移优化,提升模型在新任务上的表现。 | 常与裁剪、蒸馏配合,实现模型或多模型协作 |
| MoE | Mixture of Experts | 专家混合模型,通过多个子模型提高性能。 | 为大规模模型提供多子网络协同,结合Scaling law |
| 裁剪 | Pruning | 减少模型参数以提高效率的技术。 | 通常与蒸馏配合,减少模型体量 |
| 蒸馏 | Distillation | 将大模型的知识转移到小模型的过程。 | 与裁剪同为模型压缩手段,实现高效部署 |
一、基础:Token、参数量、Scaling Law
1、Token
在自然语言处理(NLP)或多模态模型中,你会经常听到“Token”这个词。
简单来说,Token就是模型用来理解语言的最小单位,好比一本书中的字、词或标点。
一个模型在处理句子时,先把整段话拆分成很多Token,再逐个进行分析。
想象一下,你走进一家甜品店,菜单上的所有甜品都用一个个“标牌”表示,每一个标牌可以对应着一个Token。
细分得越多,你能越精细地理解不同成分,但相应需要更高的处理量。

Token 在自然语言处理中的角色
- 句子通过 Token 化被拆分为多个 Token
- 基础 Token,它们可以像书中的字、词或标点或具体的例子一样发挥作用
甜品店菜单 Token 化示例
- 甜品店菜单通过标牌汇聚器将各种甜品表示为不同的标牌
- 使用 “" reflux.Red"” SweetUI 控件(L)来强调和标记某些甜品
Token 细化与处理量的关系
- 随着细分程度增加,理解越精细,但需要更高的处理量
2、参数量
模型拥有多少可训练的“参数量”则好比一个城市中拥有多少“电网节点”,节点数量多可能意味着供电范围更广、支持更多样化的用电需求,但如果负载分配、管理系统不到位,也会导致耗能大或效率不佳。

模型参数量与城市电网节点的类比,模型的参数量被类比为城市中的电网节点。
节点数量多意味着供电范围更广和支持更多样化的用电需求。
供电范围与多样化需求,供电范围更广可以覆盖更多区域。
支持更多样化的用电需求可以满足不同用电场景。
负载分配与管理,如果负载分配和管理系统不到位,可能导致耗能大或效率不佳。
优化负载分配和提升管理系统效率是解决这些问题的关键。
3、Scaling Law
Scaling Law更像是城市规划蓝图,告诉你如果要让城市规模继续扩大并保持良好运转,就必须匹配足够的基础设施和资源配给。

对于AI模型而言,它揭示了一个大体规律:数据量、参数量、计算量三者需要协同扩张,才能获得持续且稳定的性能收益。
在大模型领域,人们往往会追求“更大”来解决更多复杂的任务,但并不是盲目堆参数就能成功。
如果没有可靠的训练策略和足够的训练数据,那么“过度扩张”只会带来资源浪费。
于是我们常常在构造大模型时,需要对Scaling law有深刻理解,才能在性能与成本之间取得良好平衡。
二、多头注意力(MHA)与分组注意力(GQA)、多层注意力(MLA)
1、MHA
Transformer模型“家族”里最常被提及的关键技术:多头注意力机制(MHA, Multi-Head Attention)。
它的原理就好比你站在一个人声鼎沸的广场里,同时用多条“视线”去锁定不同位置的人群。
每个“注意力头”都专注于不同的语义或上下文特征,最终将这些特征整合起来,得到对整个场景更全面的理解。

Transformer 模型中的多头注意力机制 (MHA),MHA类比为站在人声鼎沸的广场,同时用多条“视线”锁定不同位置的人群。
每个“注意力头”专注于不同的语义或上下文特征,最终将这些特征整合起来,得到对整个场景的全面理解。
每个注意力头 (Head1、Head2、Head3) 对应广场上不同位置的人群 (CrowdA、CrowdB、CrowdC),并关注不同的特征 (特征1、特征2、特征3)。所有注意力头关注的特征通过整合,最终形成对整个场景的全面理解 (O)。
2、GQA
当多头注意力的计算成本越来越高,为了在不牺牲性能的前提下提升效率,人们提出了GQA(Grouped Query Attention)等思路,把查询向量分组处理,类似于“把大队人马拆成多个小分队”,让各小分队单独摸索、分别行动,最后汇总成果。

- 多头注意力机制 (MHA) 与分组查询注意力 (GQA)
- MHA存在计算成本高的问题,为了在不牺牲性能的前提下提升效率,提出了GQA。
- MHA 的问题
- MHA中每个头独立计算,导致计算资源消耗大。
- GQA 的优化思路
- GQA通过将查询向量分组,每组共享键值对,从而减少计算量并提升效率。
- GQA 的效果
- GQA能够保持性能,同时降低计算成本。
3、MLA
而MLA(Multi-Level Attention或Multi-Layer Attention等)则进一步强调在网络的多层结构里重复利用注意力机制,像是在一个大商场里,每一层楼都有保安和摄像头(注意力头)来保证秩序。
这样多层楼、多重监控,可以让信息处理更“层层递进”,在深度网络中不断精炼输入的语义。

- 多层注意力机制 (MLA)
- MLA强调在多层结构中重复利用注意力机制,使信息处理层层递进,在深度网络中不断精炼输入的语义。
- 商场类比
- 大商场中每一层楼都有保安和摄像头,用于保证秩序。多层楼、多重监控类比于多层注意力机制。
- 信息处理过程
- 输入信息依次经过第一层注意力处理、第二层注意力处理和第三层注意力处理,最终输出精炼后的语义。
三、预训练(PT)与监督微调(SFT):从“大杂烩”到“私人订制”
1、PT
当我们在塑造一个大模型时,通常会先经历一个“预训练阶段”(PT)。
这一步就像让孩子从小泡在各种知识的海洋里,也许他并不清楚每一本书的确切用途,但能够大量吸收基本的语言与常识。这样做的好处是,模型能学到通用的语言结构和概念表征。

- 预训练阶段 (PT)
- 让模型从小泡在各种知识的海洋里,大量吸收基本的语言与常识,从而学到通用的语言结构和概念表征。
- 预训练的好处
- 模型能学到通用的语言结构,这使模型能够处理各种语言任务。
- 模型能学到概念表征,这使模型能够理解复杂语义。
- 知识吸收过程
- 输入大量文本数据,模型学习语言模式,学习常识概念,形成通用语言结构,最终形成概念表征。
2、SFT
然后进入SFT(监督微调)阶段,就像给这个孩子找了一位“金牌导师”,用特定领域的资料、特定任务的示例来手把手教他如何解决某种问题。
比如针对客服场景、法律文书处理或摘要写作等,提供大量的“范本”,让模型学会在这种场景下如何给出精确、符合要求的输出。
这样,模型就能在“通用能力”之上,进一步凝练出“专业能力”。

- 监督微调阶段 (SFT)
- 让模型在特定领域学习,使用特定领域的资料和任务示例,手把手教模型解决特定问题,使模型学会在特定场景下给出精确输出。
- SFT 的好处
- 模型在通用能力之上,进一步凝练出专业能力,针对客服场景、法律文书处理或摘要写作等。
- 知识吸收过程
- 输入特定领域的大量范本,模型学习特定任务的模式,学习特定场景的常识概念,形成特定场景的专业能力。
四、强化学习(RL)及其变体:GRPO、DPO、PPO
1、强化学习(Reinforcement Learning, RL)
对于那些需要不断与环境交互、从试错中积累经验的任务,强化学习(RL)就派上用场了。
强化学习(Reinforcement Learning, RL)是一种机器学习方法,其核心是智能体(Agent)通过与环境(Environment)的交互来学习最优策略。智能体在环境中执行动作(Action),根据动作的结果接收反馈,即奖励(Reward),这些奖励信号指导智能体调整其策略,以最大化长期累积奖励。强化学习的基本组成包括智能体、环境、状态、动作和奖励。智能体通过观察环境的状态并采取行动,与环境进行交互

智能体根据当前状态选择动作,环境根据动作返回新的状态和奖励。
策略网络用于生成动作策略,价值网络用于评估状态的价值,Q值则用于衡量在某个状态下采取某个动作的期望累积奖励。探索与利用平衡是强化学习中的一个重要概念,智能体需要在尝试新动作和利用已知动作之间找到平衡。
可以用猫抓老鼠的例子来解释强化学习。假设有一只猫在一个房间里追逐老鼠,猫可以在房间内移动(例如,上、下、左、右),并试图捕捉到老鼠。每当猫靠近老鼠时,它会得到正反馈(奖励),而如果猫远离老鼠,则会受到负反馈(惩罚)。猫通过这种方式不断调整自己的策略,以便更有效地捕捉老鼠。
猫是智能体,房间是环境,猫的位置是状态,猫的移动方向是动作,靠近老鼠得到的奖励是正反馈,远离老鼠得到的惩罚是负反馈。猫通过不断尝试不同的动作,学习到在不同状态下采取何种动作能够最大化累积奖励,即更有效地捕捉老鼠。
强化学习有好几种优化方法,可视为不同的“学习曲线”或“训练策略”。
2、GRPO(Gradient-based Policy Optimization)
GRPO(Gradient-based Policy Optimization)即梯度策略优化,是强化学习中用于优化策略模型的一类方法。其核心在于通过计算策略的梯度来更新策略参数,以最大化累积奖励。GRPO算法通过采样一组动作,利用相对奖励来优化策略,避免了传统方法中对价值函数模型的依赖,从而提高了训练效率和稳定性。

假设一个学生在准备考试时,会尝试多种解题方法(采样动作组),每种方法都会得到一个分数(奖励信号)。
学生会比较这些分数,找出相对较好的解题方法(相对奖励),并根据这些方法的优劣调整自己的学习策略(梯度更新),以便在下次考试中取得更好的成绩。
在这个过程中,学生不需要额外的老师(价值函数模型)来指导学习,而是通过自我比较和调整来优化自己的学习方法。
3、DPO(Direct Policy Optimization)
有些人则喜欢“直接干”,像DPO那样,一次迭代就大幅调动参数或策略。
DPO(Direct Policy Optimization)即直接策略优化,是一种直接基于人类偏好数据来优化模型参数的方法,无需显式定义奖励函数或使用复杂的强化学习算法。
DPO的核心思想是通过比较不同模型输出的结果,选择更符合人类偏好的结果作为训练目标,从而优化模型的策略。
DPO通过增加偏好样本的对数概率,同时减小非偏好样本响应的对数概率,结合动态加权机制,避免模型退化问题

假设一个学生在写作文时,老师会给出一些反馈,比如“这段写得好,那段需要改进”。
DPO就像是学生根据老师的反馈,直接调整作文内容,而不是先定义一个“好作文”的标准(奖励函数),再通过复杂的规则来修改作文。通过这种方式,学生能够更快地写出符合老师期望的作文。
4、PPO(Proximal Policy Optimization)
有些人喜欢摸着石头过河,通过小心翼翼地试探和调整(比如PPO在一个安全范围内迭代参数)。
PPO(Proximal Policy Optimization)即近端策略优化,是一种强化学习算法,设计的目的是在复杂任务中既保证性能提升,又让算法更稳定和高效。PPO通过优化策略来训练智能体,旨在提升训练过程的稳定性和效率。其核心思想是通过在优化过程中限制策略更新的幅度,避免策略更新过大导致训练不稳定。

假设一个学生在学习时,会尝试不同的学习方法(策略),并根据考试成绩(奖励)调整学习方法。
PPO就像是学生在调整学习方法时,不会一下子完全改变,而是逐步调整,同时通过评估自己的学习状态(价值网络)来优化学习方法。通过这种方式,学生能够更稳定地提高学习成绩。
五、知识迁移与KTO
即使模型已经很强大,我们也会希望在更多场景或更多任务之间快速“迁移”已有知识。
1、KTO
KTO(Knowledge Transfer Optimization)就是在这一环节显得非常重要。
它的作用可理解为:不让学过的大模型知识“白白闲置”,而是主动迁移到新任务或新模型上,让后者直接站在“前人(大模型)的肩膀上”。这样既能省下大量重复训练的成本,又能让新模型快速积累经验。
它是一种通过将已有模型或任务中的知识转移到新的模型或任务中,以提高学习效率和性能的方法。
KTO的核心思想是利用已有模型或任务中的知识,帮助新的模型或任务更快、更好地学习。通过共享和转移知识,可以减少训练时间,提高模型的泛化能力和性能

假设一个学生在学习数学时,已经掌握了基本的加减乘除运算(已有知识)。
当他开始学习更复杂的代数时,可以将之前掌握的运算知识应用到新的学习中(知识转移),这样他就能更快地理解和掌握代数知识。通过这种方式,学生能够更高效地学习新知识,提高学习效率和成绩。
六、MoE:多专家“齐上阵”
MoE(Mixture of Experts)技术的核心想法是在一个大模型里并行放置多个“专家网络”,让它们各自对不同类型的输入或不同的子任务发挥特长。
例如,自然语言处理里可以有擅长语法纠错的专家网络,也可以有深谙新闻写作风格的专家网络,由一个门控机制决定每次该调度哪位专家来处理输入。
结果就是,在同一套大模型框架下,针对不同需求都能有一位“对口”的专家提供支持。
只是因为专家数量多,训练和推理的负担也会随之增加,所以我们在部署环节常常与裁剪和蒸馏配合使用,减少最终上线时的系统复杂度。

假设一个病人去医院看病,医院里有多个专家(专家网络),比如内科专家、外科专家、儿科专家等。
病人的情况会被输入到这些专家中,每个专家都会给出自己的诊断意见。
同时,医院里还有一个分诊系统(门控网络),它会根据病人的症状和病史,决定每个专家的意见在最终诊断中的权重。然后,这些专家的意见按照权重进行加权求和,形成最终的诊断结果。
通过这种方式,MoE模型能够综合多个专家的意见,生成更准确的诊断结果。
七、裁剪(Pruning)和蒸馏(Distillation):模型的“减脂塑形”
大模型在研究环境中固然性能出众,但落地到实际生产环境时,需要考量运行速度、内存占用和硬件成本。
因此,“裁剪”和“蒸馏”就成为模型“减脂塑形”的两大法宝。
1、裁剪(Pruning)
裁剪(Pruning)在机器学习和深度学习中是一种模型压缩技术,旨在减少模型的复杂度和提高运行效率。裁剪通过移除模型中不重要的权重、神经元或通道来实现。
这些不重要的部分通常是基于一定的标准(如权重的大小、激活值的频率等)来确定的。
裁剪可以分为权重裁剪和神经元裁剪。权重裁剪直接移除权重矩阵中的某些元素,而神经元裁剪则移除整个神经元或通道。
裁剪后的模型在保持性能的同时,具有更小的存储需求和更快的推理速度。

假设一个图书馆有很多书籍,但有些书籍很少被借阅。为了节省空间和管理成本,图书馆管理员决定移除这些很少被借阅的书籍。
这就像裁剪模型中的不重要权重或神经元一样,通过移除不重要的部分,图书馆可以更高效地利用空间,同时保持大部分读者的需求得到满足。通过这种方式,裁剪后的图书馆(模型)在保持服务质量的同时,具有更小的空间需求和更高的管理效率。
2、蒸馏(Distillation)
蒸馏(Distillation)在深度学习中是一种模型压缩技术,旨在将大型模型(教师模型)的知识和能力转移到更小、更易管理的模型(学生模型)中。
其核心思想类似于专业技能的传承过程:不是要求学习者直接复制全部细节,而是着重于掌握关键技能和核心方法。
蒸馏过程通常包括以下几个关键步骤:
- 教师模型:一个已经训练好的大型模型,具有较高的性能和复杂度。
- 学生模型:一个较小的模型,目标是通过蒸馏过程从教师模型中学习知识。
- 蒸馏损失函数:用于衡量学生模型的输出与教师模型的输出之间的差异,通常包括软标签(教师模型的输出)和硬标签(真实标签)。
- 蒸馏过程:通过优化蒸馏损失函数,训练学生模型,使其输出接近教师模型的输出,同时保持较低的复杂度。

假设一个学生在学习数学时,有一个经验丰富的老师(教师模型)指导他。老师会给出详细的解题步骤和思路(软标签),而学生则需要通过这些指导来学习和理解问题(学生模型)。
同时,学生还需要完成作业和考试(硬标签),通过比较自己的答案和老师的解题步骤,学生可以逐步提高自己的解题能力。通过这种方式,学生能够在老师的指导下,更快地掌握数学知识,提高学习成绩。
这两种方式常常结合KTO方法一起使用,让不同模型之间或同一模型的不同版本之间做有效知识共享。
大致流程如下:
- 训练教师模型:首先训练一个大型且高性能的教师模型。
- 裁剪教师模型:对教师模型进行裁剪,移除不重要的权重或神经元,得到一个更小的教师模型。
- 训练学生模型:训练一个较小的学生模型,通过蒸馏过程从裁剪后的教师模型中学习知识。
- 知识转移优化:利用KTO方法,将教师模型的知识更有效地转移到学生模型中,优化知识转移过程。
- 评估与优化:评估学生模型的性能,根据需要调整裁剪和蒸馏策略,进一步优化模型。
八、DeepSeek如何融合这些技术

1、DeepSeek 模型中技术的应用说明
DeepSeek 模型系列在技术应用上展现了高度的创新性和实用性。从 DeepSeek LLM 到 DeepSeek-V3,每项技术都在模型的不同阶段发挥了关键作用。
- DeepSeek LLM:基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本,支持多步学习率调度器,提升训练效率。在预训练和对齐(监督微调与 DPO)方面进行了创新。
- DeepSeekMoE:提出细粒度专家分割(Fine-Grained Expert Segmentation)和共享专家隔离(Shared Expert Isolation)策略,通过更灵活的专家组合提升模型性能,同时保持计算成本不变。
- DeepSeek-V2:引入多头潜在注意力(Multi-head Latent Attention, MLA)和 DeepSeekMoE 架构,在推理效率和训练成本上进行了优化,为后续版本奠定了基础。
- DeepSeek-V3:总参数量为 671B,每个 token 激活 37B 参数。采用无辅助损失的负载均衡策略和多令牌预测(Multi-Token Prediction, MTP)训练目标,支持 FP8 混合精度训练,显著降低训练成本。
- DeepSeek-R1:通过强化学习(RL)激励模型的推理能力,采用近端策略优化(PPO)和组相对策略优化(GRPO)技术,提高模型的推理性能。
这些技术的结合使用,使得 DeepSeek 模型在性能和效率上达到了新的高度,成为当前最强大的开源基础模型之一。
2、DeepSeek在论文中提到的技术应用信息
MHA(Multi-Head Attention)
- 应用模型: DeepSeek-V2, DeepSeek-V3
- 论文名称: 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, 《DeepSeek-V3 Technical Report》
- 说明: MHA 通过多个注意力头并行处理输入信息,捕获不同层次的特征和依赖关系,提高模型的推理效率和性能。
GQA(Grouped-Query Attention)
- 应用模型: DeepSeek LLM, DeepSeek-V2
- 论文名称: 《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》, 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》
- 说明: GQA 通过将查询向量分组,减少注意力计算的复杂度,提高模型的推理速度。
PT(Pre-Training)
- 应用模型: DeepSeek LLM, DeepSeek-V2, DeepSeek-V3
- 论文名称: 《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》, 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, 《DeepSeek-V3 Technical Report》
- 说明: PT 通过在大规模数据集上进行预训练,学习通用的语言模式和特征,提高模型的泛化能力和性能。
SFT(Supervised Fine-Tuning)
- 应用模型: DeepSeek LLM, DeepSeek-V2, DeepSeek-V3
- 论文名称: 《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》, 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, 《DeepSeek-V3 Technical Report》
- 说明: SFT 通过在特定任务的数据集上进行微调,使模型更好地适应特定任务的需求,提高模型在特定任务上的性能。
RL(Reinforcement Learning)
- 应用模型: DeepSeek-R1
- 论文名称: 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》
- 说明: RL 通过让模型与环境进行交互,学习最优的策略以最大化累积奖励,提高模型的性能。
GRPO(Group Relative Policy Optimization)
- 应用模型: DeepSeek-R1
- 论文名称: 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》
- 说明: GRPO 通过优化策略的相对优势,提高模型的训练效率和性能。
DPO(Direct Preference Optimization)
- 应用模型: DeepSeek LLM
- 论文名称: 《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》
- 说明: DPO 通过直接优化模型的偏好,提高模型的对齐性和性能。
PPO(Proximal Policy Optimization)
- 应用模型: DeepSeek-R1
- 论文名称: 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》
- 说明: PPO 通过限制策略更新的幅度,提高模型的训练稳定性和性能。
KTO(Knowledge Transfer Optimization)
- 应用模型: DeepSeek-V2, DeepSeek-V3
- 论文名称: 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, 《DeepSeek-V3 Technical Report》
- 说明: KTO 通过将已有模型或任务中的知识转移到新的模型或任务中,提高模型的训练效率和性能。
MoE(Mixture-of-Experts)
- 应用模型: DeepSeekMoE, DeepSeek-V2, DeepSeek-V3
- 论文名称: 《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》, 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, 《DeepSeek-V3 Technical Report》
- 说明: MoE 通过多个专家网络和门控网络,实现对输入数据的高效处理,提高模型的性能和效率。
裁剪(Pruning)
- 应用模型: DeepSeek-V3
- 论文名称: 《DeepSeek-V3 Technical Report》
- 说明: 裁剪通过移除模型中不重要的权重或神经元,减少模型的复杂度和提高运行效率。
蒸馏(Distillation)
- 应用模型: DeepSeek-V3
- 论文名称: 《DeepSeek-V3 Technical Report》
- 说明: 蒸馏通过将大型模型(教师模型)的知识迁移到较小模型(学生模型)中,提高模型的性能和效率。
所以,我们看到DeepSeek R1的横空出世并不是一撮而就。
九、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】


第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)