DeepSeek引发的行业轰动还在持续,已经有太多的博主对相关技术进行研究和解读,本系列文章将对所涉及的关键技术进行整理和汇总。同时,针对每一项技术尽可能用通俗易懂的方式进行解释,解决大家对技术存在的误区、技术所提出的创新点等等一系列问题。请添加图片描述

一、DeepSeek-v3

模型简介:DeepSeek-V3是预训练模型,共有671B参数,使用了14.8T的token数据进行训练,在模型结构、算效提升、训练优化三个方面进行大量创新工作,使得V3能够以相对低的训练成本达到比肩闭源模型的性能。

模型结构

1、MoE结构

混合专家模型:利用稀疏激活的性质,将大模型拆解成若干功能模块,即每个专家都是一个相对独立的神经网络,都有各自的参数,每个擅长处理特定类型的输入或者在数据的某个子空间上表现良好。通过门控网络(Gating Network)调整权重,把不同的输入按照概率路由给不同的专家网络。各个专家网络对分配到的输入进行处理,产生各自的输出,最后根据门控网络分配的权重,将这些专家网络的输出进行组合,得到最终的输出结果。

DeepSeekMoE: 使用了更细粒度的专家,并将一些专家隔离为共享专家,这里的Top k就是由第K位 token 和所有路由专家计算出的Affinity得分中最高的 个分组成的集合。

请添加图片描述

2、 MLA (Multi-head Latent Attention) 多层潜注意力架构

注意力机制:神经网络中的一种重要技术,它允许模型聚焦于输入数据的不同部分。在传统的注意力机制中,模型会计算输入元素之间的关联权重,然后根据这些权重对输入进行加权组合。

多头Multi-head:每个注意力头可以学习到输入数据不同方面的表示。例如,在处理自然语言处理任务中的一个句子时,一个注意力头可能聚焦于句子中的语法结构,另一个可能聚焦于语义信息,还有一个可能关注于词汇的情感倾向等。这些不同的注意力头并行工作,最后将它们的结果进行组合。

MLA是DeepSeek新提出的,核心是对注意力key 和 value 进行低秩联合压缩,这样在生成过程中只需要缓存映射到潜空间的这两个蓝框向量,从而显著减少键值 (KV) 缓存。

请添加图片描述

3、 无辅助损失的负载均衡 auxiliary-loss-free strategy

传统:对于MoE模型,不平衡的专家负载会导致路由崩溃,并在具有专家并行的场景中降低计算效率。传统解决方案通常依靠辅助损失来避免负载不平衡,但是过大的辅助损失会损害模型性能。

无辅助损失的负载平衡策略:目标是在负载平衡和模型性能之间取得更好的平衡,这里的方法是为每个专家引入一个偏差项 ,并将其添加到相应的affinity分数 , 中以确定topK 的路由:请添加图片描述

注意这里的偏差项仅用于路由,与 FFN 输出相乘的门控值仍然来自原始affinity得分。在训练期间持续监控每个训练step对应的整个batch上的专家负载。在step结束时,如果其对应的专家超载,则将偏差项减少,如果其对应的专家负载不足,则将偏差项增加(是一个称为偏差更新速度的超参数)。通过动态调整,DeepSeek-V3 在训练期间保持专家负载平衡,并且比通过纯辅助损失来鼓励负载平衡的模型能获得更好的性能。

请添加图片描述

4、MTP (Multi-Token prediction)多token预测

传统:Next-Token-Prediciton方式,每次预测未来的一个token。

实现:MTP方法最早时 Gloeckle 提出,使用独立输出头并行预测多个连续的token,但是DeepSeek这里按顺序预测token并在每个depth都保留其完整的因果链。MTP模块共享主模型的嵌入和输出头参数与梯度,提升内存效率。
请添加图片描述

算效提升

5、DualPipe跨节点通信

传统:朴素流水线并行是实现流水线并行训练的最直接的方法。我们将模型按照层间切分成多个部分(Stage),并将每个部分(Stage)分配给一个 GPU。然后,我们对小批量数据进行常规的训练,在模型切分成多个部分的边界处进行通信。

原理:用更少的流水线bubbles,并通过计算通信重叠隐藏了训练期间的大部分通信,也就是将计算和通信阶段重叠在前向和后向过程中,从而解决了跨节点专家并行性带来的沉重通信开销。这种重叠的意义在于随着模型进一步扩大,只要保持恒定的计算与通信比率,仍然可以在节点之间使用细粒度experts,同时实现接近零的全对全通信开销。数据传输和通信同时进行,数据传输提速50%,通信减少20%。

请添加图片描述

6、 FP8 混合精度训练

数据精度:FP8(Floating - Point 8 - bit)是一种8位的浮点数表示格式,与传统的FP32和FP16相比,它使用更少的位数来表示数字,在表示范围和精度上较差,但是可以减少数据存储和计算的开销。

混合精度训练:在FP8混合精度训练中,通常会将FP8与其他精度(如FP32)的数据结合使用。整体框架如图所示,首先,为了加速模型训练,大多数核心计算内核,即通用矩阵乘法GEMM 操作,都是以 FP8 精度实现的。这些 GEMM 操作接受 FP8 张量作为输入,并以 BF16 或 FP32 产生输出。与线性算子相关的所有三个 GEMM,即 Fprop(前向传递)、Dgrad(激活后向传递)和 Wgrad(权重后向传递),都在 FP8 中执行。与原始 BF16 方法相比,这种设计理论上使计算速度翻倍。此外,FP8 Wgrad GEMM 允许将激活存储在 FP8 中以用于后向传递。这显著减少了内存消耗。同时为以下组件保持原始精度 BF16 或 FP32:嵌入模块、输出头、MoE 门控模块、规范化算子和注意算子。

请添加图片描述

7、 PTX编程

英伟达PTX(并行线程执行):专门为其GPU设计的中间指令集架构, 位于高级GPU编程语言(如CUDAC/C++或其他语言前端)和低级机器代码(流处理汇编或SASS)之间。PTX是一种接近底层的指令集架构,将GPU呈现为数据并行计算设备,因此能够实现寄存器分配、线程/线程束级别调整等细粒度优化,这些是CUDA C/C++等语言无法实现的。

实现:DeepSeek V3采用定制的PTX(并行线程执行)指令并自动调整通信块大小,定制通信内核,实现对 GPU硬件进行细粒度控制,使用H800芯片的20个SM模块专项处理服务器之间的通信任务,大大减少了 L2 缓存的使用和对其他 SM 的干扰 ,显著提升大模型推理框架的运行速度。

请添加图片描述

训练优化

8、RL:基于规则的奖励模型 (RM) + 基于模型的 RM
  • 基于规则的RM:对于可以使用特定规则验证的问题,采用基于规则的奖励系统来确定反馈。例如,某些数学问题具有确定性结果,要求模型在指定的格式提供最终答案,用规则来验证正确性。
  • 基于模型的RM:对于具有自由形式真实答案的问题,依靠奖励模型来确定响应是否与预期的真实答案相匹配。对于没有明确真实答案的问题,例如涉及创意写作的问题,奖励模型的任务是根据问题和相应的答案作为输入提供反馈。

二、DeepSeek-R1

模型简介:DeepSeek-R1是推理模型,是在后训练阶段,大规模使用了强化学习技术(RL),在仅有极少标注数据的监督微调(SFT)下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版,并具备长思维链(CoT)能力。

1、 纯强化学习

实现:

(1)高质量冷启动数据:与DeepSeekR1zero同理,以DeepSeekv3 base作为强化学习的起点,但为了克服可读性差的问题,选择可读性更强的cot(长思维链)数据作为冷启动数据,包括以可读格式收集DeepSeek-R1-Zero输出,并通过人工注释者进行后处理来提炼结果。
(2)面向推理的强化学习:这与DeepSeekR1zero的强化学习过程相同,但是在RL期间引入语言一致性奖励,虽然语言对齐可能会造成一定的性能损失,但是提高了可读性。
(3)抑制采样和监督微调:拒绝采样指模型训练过程中生成的一些不符合特定标准或质量要求的样本数据进行舍弃,同时选取了v3的SFT数据集一部分作为微调数据。
(4)全场景强化学习,属于一个二级强化学习阶段,目的是与人类偏好保持一致。

请添加图片描述
Reward modeling奖励模型:奖励是训练信号的来源,决定了强化学习的优化方向。DeepSeek-R1-Zero 采用了基于规则的奖励系统,主要包含两种类型的奖励:

  • 准确度奖励:评估响应是否正确。例如,对于具有确定性结果的数学问题,要求模型以指定的格式(例如,在框内)提供最终答案,从而实现可靠的基于规则的正确性验证。同样,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励:强制模型将其思考过程置于“”和“”标签之间。
  • 在DeepSeek-R1-Zero 训练中没有用结果或过程神经奖励模型。
2、GRPO(Group Relative PolicyOptimization)群组相对策略优化

PPO:近端策略优化。训练过程中有3个模型,分别是参考模型(reference model)、奖励模型(reward model)、价值模型(value model)。参考模型作为稳定参照,与策略模型的输出作对比。奖励模型根据策略模型的输出效果给出量化的奖励值,价值模型则根据对策略模型的每个输出预测未来能获得的累计奖励期望。ppo中的价值模型规模与策略模型相当,由此带来巨大的内存和计算负担。

GRPO:是一种在强化学习领域中的优化策略,与传统的仅考虑个体的策略优化不同,GRPO将多个智能体(或策略)视为一个群体。在这个群体中,每个智能体的策略评估和优化不是孤立进行的,而是相对其他智能体的策略进行。采用基于组的奖励归一化策略,而省略了价值模型。简言之就是策略模型(目标模型)根据输入q得到输出o(1,2,3),再计算各自的奖励值r(1,2,3),通过一组规则,评判组间价值奖励值的相对关系,进而让策略模型(目标模型) 以更好的方式输出。

请添加图片描述

3、Deepseek-R1蒸馏

从 DeepSeek-R1 到较小的dense模型的蒸馏:使用 Qwen2.5-32B 作为基础模型,从 DeepSeek-R1 直接蒸馏的效果优于在原本小模型上进行 RL。这表明,更大的基础模型所发现的推理模式对于提高推理能力至关重要。

DeepSeek-R1 开源了蒸馏后的 Qwen 和 Llama 系列。蒸馏后的 14B 模型的表现远胜于最先进的开源 QwQ-32B-Preview ,同时蒸馏后的 32B 和 70B 模型在dense模型的推理 benchmark 上也创下了新纪录。

三、Janus-Pro

模型简介:作为 Janus 模型的升级版,Janus-Pro 通过优化训练策略、扩展数据规模(新增 9000 万样本)和增大模型容量(7B/1.5B 参数),显著提升了多模态理解能力和图像生成稳定性,尤其在短文本提示生成上表现突出。

Janus

大多数现有的联合建模方法使用相同的 visual encoder 视觉编码器来处理多模态理解和生成任务的输入。由于这两个任务所需的表示不同,这通常会导致多模态理解的性能不佳。

为了解决这个问题,Janus 提出了分离视觉编码的方法,这缓解了多模态理解和生成任务之间的冲突,在两个任务中都取得了出色的表现。然而,由于训练数据量有限,模型容量相对较小,依然存在一些缺点,例如在短提示图像生成上性能不佳,文本到图像生成质量不稳定。

请添加图片描述

Janus-Pro:

请添加图片描述
Janus 的增强版本,它在三个维度上进行了改进:

优化训练策略

  • 延长第一阶段的训练时间:增加了第一阶段的训练step,以便在 ImageNet 数据集上进行充分的训练。研究结果表明,即使固定了LLM 参数,该模型也可以有效地模拟像素依赖性并根据类别名称生成合理的图像。
  • 第二阶段的重点训练:在第二阶段放弃 ImageNet数据,直接利用普通的文本转图像数据来训练模型,使其基于密集描述生成图像。这种方法使第二阶段能够更有效地利用文本转图像数据,从而提高训练效率和整体性能。
  • 调整第三阶段 SFT 不同类型数据集的比例:将多模态数据、纯文本数据和文本转图像数据的比例从 7:3:10 更改为 5:1:4。通过略微降低文本转图像数据的比例,来保持强大的视觉生成能力,同时实现更好的多模态理解性能。

扩展的训练数据

  • 多模态理解:对于第二阶段的预训练数据,参考 DeepSeek-VL2 添加了大约 90M 个样本。这些包括图像标题数据集(例如YFCC )以及用于表格、图表和文档理解的数据(例如 Docmatix)。对于第三阶段的监督微调 SFT 数据,结合了来自DeepSeek-VL2 的其他数据集,例如 MEME 理解、中文对话数据和旨在增强对话体验的数据集。这些新增功能扩展了模型的功能,丰富了其处理各种任务的能力,同时改善了整体对话体验。
  • 视觉生成:先前的 Janus 版本中使用的真实世界数据质量不佳且包含大量噪音,会导致文本到图像生成不稳定,从而导致输出的美观度较差。在Janus-Pro 中,整合了大约 72M 个合成美学数据样本,在统一的预训练阶段将真实数据与合成数据的比例提高到1:1。实验表明,在合成数据上训练时,模型收敛速度更快,并且产生的文本到图像输出不仅更稳定,而且美学质量也显著提高。

我的DeepSeek部署资料已打包好(自取↓)
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!

❗️为什么你必须了解大模型?

1️⃣ 薪资爆炸:应届大模型工程师年薪40万起步,懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构:金融、医疗、教育正在被AI重塑,不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车:90%的进阶技巧不需写代码!会说话就能指挥AI

(附深度求索BOSS招聘信息)
在这里插入图片描述

⚠️警惕:当同事用DeepSeek 3小时干完你3天的工作时,淘汰倒计时就开始了。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?老师啊,我自学没有方向怎么办?老师,这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!当然这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐