赵成刚,邓成琦,阮冲,戴大迈,高华祚,李佳石,张丽月,黄盼盼,周尚彦,马世荣,梁文峰,何颖,王宇青,刘玉轩,魏昱行
DeepSeek-AI
中国北京

摘要

大型语言模型(LLMs)的快速扩展揭示了当前硬件架构中的关键限制,包括内存容量、计算效率和互连带宽的约束。DeepSeek-V3在2048个NVIDIA H800 GPU上进行训练,展示了如何通过硬件感知模型协同设计有效应对这些挑战,实现大规模训练和推理的成本效益。本文对DeepSeek-V3/R1模型架构及其AI基础设施进行了深入分析,重点介绍了多头潜在注意力(MLA)以提高内存效率、专家混合(MoE)架构以优化计算-通信权衡、FP8混合精度训练以释放硬件能力的全部潜力以及多平面网络拓扑以最小化集群级网络开销等关键创新。基于DeepSeek-V3开发过程中遇到的硬件瓶颈,我们与学术界和行业同行就未来硬件方向进行了更广泛的讨论,包括精确低精度计算单元、规模扩展和规模外延收敛以及低延迟通信结构的创新。这些见解强调了硬件和模型协同设计在满足日益增长的AI工作负载需求中的关键作用,为下一代AI系统的创新提供了实际蓝图。

CCS概念

  • 计算机系统组织 →\rightarrow 架构。

关键词

大型语言模型,专家混合,深度学习,FP8混合精度训练,多平面网络,协同设计

ACM参考格式:

Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y.X. Wei . 2025. Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures. In Proceedings of the 52nd Annual International Symposium on Computer Architecture (ISCA '25), June 21-25, 2025, Tokyo, Japan. ACM, New York, NY, USA, 14 pages. https://doi.org/10.1145/3695053.3731412

1 引言

1.1 背景

近年来,大型语言模型(LLMs)经历了快速发展,这得益于模型设计、计算能力和数据可用性的迭代改进。在2024年,突破性的模型如GPT4o [59]、LLaMa-3 [3]、Claude 3.5 Sonnet [8]、Grok-2 [73]、Qwen2.5 [75]、Gemini-2 [37] 和我们的DeepSeek-V3 [26] 展示了显著的进步,进一步缩小了通向人工通用智能(AGI)的差距。正如Scaling Laws [45] 所示,增加模型规模、训练数据和计算资源会带来模型性能的显著提升,突显了扩展在推动AI能力进步中的关键作用。总体而言,这些发展开启了一个时代,在这个时代中,扩大模型规模和计算能力被视为解锁更高水平智能的关键。

最近的发展,推理模型如OpenAI的o1/o3系列模型 [60, 61]、DeepSeek-R1 [28]、Claude-3.7 Sonnet [9]、Gemini 2.5 Pro [38]、Seed1.5-Thinking [68] 和 Qwen3 [71] 不仅展示了大规模架构带来的好处,还展示了提高推理效率的必要性,特别是在处理更长的上下文和实现更深的推理方面。这些进展强调了对更快、更高效的推理的需求,从而对计算资源提出了越来越高的要求。

为了应对这些挑战,行业领导者如阿里巴巴、字节跳动、谷歌、xAI 和 Meta 部署了巨大的训练集群 [33, 42, 43, 56, 62, 74],包含数万甚至数十万个GPU或TPU。虽然这样的大规模基础设施使开发最先进的模型成为可能,但其高昂的成本对较小的研究团队和组织构成了重大障碍。尽管存在这些障碍,开源初创公司如DeepSeek [23-26, 28] 和 Mistral [41, 55] 也在努力开发最先进的模型。其中,DeepSeek 特别展示了有效的软件-硬件协同设计可以实现大型模型的低成本训练,使较小的团队也能参与竞争。

在此传统基础上,DeepSeek-V3 [26] 代表了成本效益训练的新里程碑。通过利用仅2048个NVIDIA H800 GPU,DeepSeek-V3 实现了最先进的性能。这一成就与之前展示的Fire-Flyer AI-HPC [7] 的成本效益架构承诺一致。从DeepSeek-V3获得的实践和见解展示了如何充分利用现有的硬件资源,为更广泛的AI和HPC社区提供宝贵的经验教训。

作者按名字首字母顺序排列。王宇青和张丽月是本文的通讯作者(电子邮件:research@deepseek.com)。

在不用于盈利或商业优势的前提下,允许复制本作品的全部或部分内容用于个人或课堂教学,前提是副本不得制作或分发以获取利润或商业优势,并且副本应保留此通知和首页上的完整引用。对于由其他作者(s)拥有的本作品组件,必须遵守版权。允许摘要并注明出处。否则复制、重印、发布到服务器或再分发至列表需要事先获得特定许可和/或支付费用。请求权限请联系permissions@acm.org。
    ISCA '25, 2025年6月21-25日,日本东京
        (c) 2025 版权由作者(s)持有。出版权利授权给ACM。ACM ISBN 979-8-4007-1261-6/2025/06
            https://doi.org/10.1145/3695053.3731412
            ### 1.2 目标

本文并不旨在重复DeepSeek-V3详细的技术和算法细节,这些已在技术报告[26]中有详尽记载。相反,它采用了一个涵盖硬件架构和模型设计的双重视角,探索它们在实现成本效益的大规模训练和推理过程中的复杂相互作用。通过研究这种协同作用,我们希望为高效扩展LLMs提供可操作的见解,同时不牺牲性能或可访问性。

具体来说,本文重点关注以下几点:

  • 硬件驱动的模型设计:分析硬件特性,例如FP8低精度计算和规模扩展/规模外延网络属性,如何影响DeepSeek-V3的架构选择。
    • 硬件与模型之间的相互依赖关系:研究硬件能力如何塑造模型创新,以及LLMs不断变化的需求如何推动下一代硬件的需求。
    • 硬件发展的未来方向:从DeepSeek-V3中得出可操作的见解,指导未来硬件和模型架构的协同设计,为可扩展、成本效益的AI系统铺平道路。

1.3 本文结构

本文其余部分的组织如下。第2节探讨了DeepSeek-V3模型架构的设计原则,重点介绍了多头潜在注意(MLA)、专家混合(MoE)优化和多令牌预测模块等关键创新。第3节说明了我们的模型架构如何追求低精度计算和通信。第4节包括规模扩展互连优化,讨论规模扩展/规模外延收敛,并探讨硬件特性如何影响并行性和专家选择策略。第5节关注规模外延网络优化,包括多平面网络协同设计和低延迟互连。除了第3节至第5节提到的当前局限性和未来建议外,第6节详细阐述了来自DeepSeek-V3的更多关键见解,并确定了未来硬件和模型协同设计的方向。

2 DeepSeek模型的设计原则

DeepSeek-V3的发展体现了针对LLMs扩展的硬件感知方法,每个设计决策都仔细与硬件限制对齐,以优化性能和成本效率。

如图1所示,DeepSeek-V3采用了已被证明在DeepSeek-V2中有效的DeepSeekMoE [27] 和多头潜在注意(MLA)[25] 架构。DeepSeekMoE 解锁了MoE架构的潜力,而MLA则通过压缩Key-Value(KV)缓存大幅减少了内存消耗。此外,DeepSeek-V3引入了FP8混合精度训练,显著降低了计算成本,同时不影响模型质量,使大规模训练更加可行。为了提高推理速度,DeepSeek-V3集成了基于其多令牌预测模块的推测解码,显著提高了生成速度。除了模型架构,我们还通过部署多平面两层Fat-Tree网络来探索成本效益的AI基础设施,
替换传统的三层Fat-Tree拓扑,降低集群网络成本。

这些创新旨在解决扩展LLMs的三个核心挑战——内存效率、成本效益和推理速度,接下来的子章节将详细探讨这些问题。

2.1 内存效率

LLMs通常需要大量的内存资源,每年的内存需求增长超过1000%。相比之下,高速内存(例如HBM)容量的增长率要慢得多,通常每年不到50% [35]。虽然多节点并行是一种可行的解决方案以应对内存限制,但在源头优化内存使用仍然是一个关键且有效的策略。
2.1.1 低精度模型。与使用BF16权重的模型相比,FP8显著减少了内存消耗一半,有效缓解了AI内存墙的挑战。低精度技术的详细讨论见第3节低精度驱动设计。
2.1.2 使用MLA减少KV缓存。对于LLM推理,用户请求通常涉及多轮对话。为了有效地处理这些请求,先前请求的上下文被缓存在通常称为KV缓存的地方。KV缓存通过缓存先前处理的标记的Key和Value向量解决了这个问题,消除了为后续标记重新计算它们的需要。在每次推理步骤中,模型只需计算当前标记的Key和Value向量,并通过将它们与历史记录中的缓存Key-Value对组合来进行注意力计算。这种增量计算将生成每个标记的复杂度降低到O(N),在处理长序列或多轮输入时非常高效。然而,它引入了内存受限瓶颈,因为计算从GEMM转移到GEMV,后者的计算与内存比率要低得多。现代硬件提供的数百TFLOPS,GEMV很快受到内存带宽的限制,使内存访问成为主要瓶颈。

为了解决这个瓶颈,我们采用了多头潜在注意(MLA)[25],它使用投影矩阵将所有注意力头的KV表示压缩到一个更小的潜在向量中,该矩阵与模型联合训练。在推理过程中,只需要缓存潜在向量,这比存储所有注意力头的KV缓存显著减少了内存消耗。

除了MLA之外,还提出了几种减少KV缓存大小的方法。这些方法非常有价值,并为内存高效的注意力机制的进步提供了重要启示:

  • 共享KV(组查询注意,GQA;多查询注意,MQA):不是为每个注意力头维护单独的KV对,多个头共享一组KV对,大大压缩了KV存储。代表性方法包括GQA [5] 和 MQA [70]。

    • 窗口KV:对于长序列,只在缓存中保留KV对的滑动窗口,丢弃窗口外的结果。虽然这减少了存储,但它损害了长期上下文推理。代表性方法包括Longformer [11] 及相关架构。
  • img-0.jpeg
    图1:DeepSeek-V3的基本架构。基于DeepSeek-V2的MLA和DeepSeekMoE,引入了多令牌预测模块和FP8混合精度训练,以增强推理和训练效率。图中表明了架构不同部分使用的计算精度。所有组件的输入和输出均为BF16。

  • 量化压缩:KV对使用低比特表示存储 [40, 44, 52],进一步减少内存使用。量化实现了显著的压缩,对模型性能的影响最小。
    表1比较了DeepSeek-V3、Qwen-2.5 72B [75] 和 LLaMA-3.1 405B [4] 每个令牌的KV缓存内存使用情况。通过采用MLA,DeepSeek-V3显著减少了KV缓存大小,每个令牌仅需70 KB,远少于LLaMA-3.1 405B的516 KB和Qwen-2.5 72B的327 KB。这种显著减少凸显了MLA在压缩KV表示方面的效率,相较于基于GQA的方法。能够实现如此显著的内存消耗减少,使得DeepSeekV3特别适合涉及长上下文处理和资源受限环境的场景,实现更可扩展和成本效益的推理。
    2.1.3 对资源高效技术的未来方向和展望。虽然减少KV缓存大小是提高内存效率的一种有前途的方法,但Transformer基础自回归解码中存在的二次复杂性仍然是一项艰巨的挑战,特别是对于极长的上下文。近期研究,如Mamba-2 [21] 和Lightning Attention [63],调查了线性时间替代方案,提供了平衡计算成本和模型性能的新可能性。此外,
    稀疏注意 [76] 方法寻求压缩和稀疏激活注意键和值,代表另一种克服与注意相关的计算挑战的尝试。我们期待与更广泛的社区合作取得突破。

2.2 MoE模型的成本效益

对于稀疏计算,我们开发了先进的专家混合(MoE)架构DeepSeekMoE,如图1右下角所示。MoE模型的优势体现在两个方面。
2.2.1 减少训练的计算需求。MoE架构的主要优势在于能够显著降低训练成本。通过选择性激活一小部分专家参数,MoE模型允许总参数数量大幅增加,同时保持适度的计算需求。例如,DeepSeek-V2拥有236B参数,但每个令牌仅激活21B参数。同样,DeepSeek-V3扩展到671B参数——几乎是V2的三倍大小——而每个令牌的激活仍保持在37B。相比之下,密集模型如Qwen2.5-72B和LLaMa3.1-405B在训练期间需要激活所有参数。
表1:KV缓存大小比较(BF16精度):与使用GQA的其他模型相比,DeepSeek-V3(MLA)大幅减少了KV缓存大小。

模型 每个令牌的KV缓存 倍数
DeepSeek-V3 (MLA) 70.272 KB 1 x
Qwen-2.5 72B (GQA) 327.680 KB 4.66 x
LLaMA-3.1 405B (GQA) 516.096 KB 7.28 x

如表2所示,DeepSeekV3的总计算成本约为每令牌250 GFLOPS,而72B密集模型需要394 GFLOPS,405B密集模型需要2448 GFLOPS。这表明MoE模型在消耗少一个数量级的计算资源的情况下,实现了与密集模型相当甚至更优的性能。
2.2.2 单用户场景和个人使用的优势。在未来个性化LLM代理[53]变得普遍的情况下,MoE模型在单请求场景中具有独特优势。由于每次请求仅激活一小部分参数,因此极大地减少了内存和计算需求。例如,DeepSeek-V2(236B参数)在推理期间仅激活21B参数。这使得配备AI SoC芯片[6, 10, 58]的PC能够实现近20个令牌每秒(TPS),甚至是该速度的两倍,这对于个人使用来说已经足够。相比之下,类似能力的密集模型(例如70B参数)在类似的硬件上通常只能达到个位数TPS。

值得注意的是,日益流行的KTransformers [39] 推理引擎允许完整的DeepSeek-V3模型在配备消费级GPU(成本约10,000美元)的低成本服务器上运行,同时仍能达到近20 TPS。

这种效率使得MoE架构适用于本地部署和单用户场景,其中硬件资源通常有限。通过最小化内存和计算开销,MoE模型可以在不需要昂贵基础设施的情况下提供高质量的推理性能。

2.3 提高推理速度

2.3.1 并行计算与通信:最大化吞吐量。推理速度涵盖了整个系统的最大吞吐量和单次请求的延迟。为了最大化吞吐量,我们的模型从一开始就设计为利用双重微批次重叠 [31, 78],有意地将通信延迟与计算重叠。正如我们在在线推理系统中所展示的那样,并得到开源配置文件数据 [31] 的支持,我们将MLA和MoE的计算分为两个独立阶段。当一个微批次执行部分MLA或MoE计算时,另一个微批次同时执行相应的调度通信。反之亦然,在第二个微批次的计算阶段,第一个微批次进行合并通信步骤。这种流水线式方法使得所有对所有通信与正在进行的计算无缝重叠,确保GPU始终处于完全利用状态。此外,在生产环境中,我们采用预填充和解码分离架构 [80],将大批量预填充和延迟敏感的解码请求分配给不同的专家并行组大小。这种策略最终在现实世界服务条件下最大化系统吞吐量。

表2:MoE和密集模型训练计算成本对比:假设序列长度为4096时测量每个令牌的计算成本。

模型 尺寸 训练成本
DeepSeek-V2 MoE 236 B 155 GFLOPS/Token
DeepSeek-V3 MoE 671 B 250 GFLOPS/Token
Qwen-72B Dense 72 B 394 GFLOPS/Token
LLaMa-405B Dense 405 B 2448 GFLOPS/Token

2.3.2 推理速度限制。本节重点介绍LLM服务的解码输出速度,通常以每个输出令牌的时间(TPOT)来衡量。TPOT 是用户体验的关键指标,也直接影响到依赖推理长度来增强其智能的推理模型(如 OpenAI 的 o1/o3 和 DeepSeek-R1)的响应速度。

对于 MoE 模型,实现高推理速度依赖于在计算设备之间高效部署专家参数。为了实现最快的推理速度,每个设备理想情况下应为单个专家(或必要时多个设备协作计算单个专家)执行计算。然而,专家并行(EP)需要将标记路由到适当的设备,这涉及到跨网络的所有对所有通信。因此,MoE 推理速度的上限由互连带宽决定。

考虑一个系统,其中每个设备持有单个专家的参数并处理大约 32 个标记。这个标记计数在计算与内存比率和通信延迟之间取得了平衡。而且这个标记计数确保在专家并行过程中每个设备处理相同的批量大小,从而使通信时间易于计算。

对于通过 CX7 400Gbps InfiniBand(IB)NIC 互联的系统,EP 中两次所有对所有通信所需的时间计算如下:
通信时间 =(1=(1=(1 字节 +2 字节 )×32×9×7 K/50 GB/s=120.96μ s) \times 32 \times 9 \times 7 \mathrm{~K} / 50 \mathrm{~GB} / \mathrm{s}=120.96 \mu \mathrm{~s})×32×9×7 K/50 GB/s=120.96μ s
这里,调度使用 FP8(1 字节),而合并使用 BF16(2 字节),每个标记的隐藏大小约为 7 K 。因子 9 表示每个标记被发送到 8 个路由专家和 1 个共享专家。

如第 2.3.1 节所述,最大化吞吐量需要使用双重微批次重叠。在这种策略中,我们假设理论上的最佳情况分析,即计算开销最小化,因此性能的上限由通信延迟决定。然而,在实际推理工作负载中,请求上下文往往更长,MLA 计算通常主导执行时间。因此,这种分析代表了双重微批次重叠下的理想化场景。根据这种假设,每层的总时间可以公式化为:

 总时间每层 =2×120.96μ s=241.92μ s \text { 总时间每层 }=2 \times 120.96 \mu \mathrm{~s}=241.92 \mu \mathrm{~s}  总时间每层 =2×120.96μ s=241.92μ s

DeepSeek-V3 共有 61 层,总推理时间为:

 总推理时间 =61×241.92μ s=14.76 ms \text { 总推理时间 }=61 \times 241.92 \mu \mathrm{~s}=14.76 \mathrm{~ms}  总推理时间 =61×241.92μ s=14.76 ms

因此,该系统的理论上限约为 14.76 ms TPOT,相当于每秒 67 个令牌。然而,实际上,诸如通信开销、延迟、带宽利用率不足和计算效率低下等因素会降低这一数字。
相比之下,如果使用高带宽互连如 GB200 NVL72(900 GB/s900 \mathrm{~GB} / \mathrm{s}900 GB/s 单向带宽覆盖 72 个 GPU),EP 每步的通信时间降至:

 通信时间 =(1 字节 +2 字节 )×32×9×7 K/900 GB/s=6.72μ s \text { 通信时间 }=(1 \text { 字节 }+2 \text { 字节 }) \times 32 \times 9 \times 7 \mathrm{~K} / 900 \mathrm{~GB} / \mathrm{s}=6.72 \mu \mathrm{~s}  通信时间 =(1 字节 +2 字节 )×32×9×7 K/900 GB/s=6.72μ s

假设计算时间等于通信时间,这显著减少了总推理时间,使理论上限超过 0.82 ms TPOT\mathbf{0 . 8 2} \mathbf{~ m s ~ T P O T}0.82 ms TPOT,大约每秒 1200 个令牌。虽然这个数字纯粹是理论上的且尚未经过实证验证,但它生动地展示了高带宽规模扩展网络在加速大规模模型推理方面的变革潜力。

尽管 MoE 模型表现出良好的可扩展性,仅通过增加硬件资源来实现高推理速度是成本禁止的。因此,软件和算法也必须为提高推理效率做出贡献。
2.3.3 多令牌预测。受 Gloeckle 等人 [36] 的启发,DeepSeek-V3 引入了多令牌预测(MTP)框架,同时增强了模型性能并提高了推理速度。在推理过程中,传统的自回归模型在每个解码步骤生成一个令牌,导致顺序瓶颈。MTP 通过使模型以较低成本生成额外的候选令牌并并行验证它们来缓解这一问题,类似于以前基于自我草稿的推测解码方法 [14, 48]。此框架显著加速了推理而不影响准确性。

如图 1 的顶部所示,每个 MTP 模块使用单层,这比完整模型轻量得多,用于预测额外的令牌,从而实现多个候选令牌的并行验证。尽管稍微降低了吞吐量,这种方法显著改善了端到端生成延迟。实际数据表明,MTP 模块在预测第二个后续令牌时的接受率为 80%80 \%80%90%90 \%90%,这比没有 MTP 模块的情况增加了 1.8 倍的生成 TPS。

此外,通过每步预测多个令牌,MTP 增加了推理批量大小,这对于提高 EP 计算强度和硬件利用率至关重要。这种算法创新对 DeepSeek-V3 快速且成本效益的推理至关重要。
2.3.4 推理模型和测试时扩展的高推理速度。测试时扩展在 LLMs 中,以 OpenAI 的 o1/o3 系列 [60, 61] 为例,通过在推理过程中动态调整计算资源,实现了数学推理、编程和一般推理的重大进步。随后的模型——包括 DeepSeek-R1 [28]、Claude-3.7 Sonnet [9]、Gemini 2.5 Pro [38]、Seed1.5-Thinking [68] 和 Qwen3 [71]——采用了类似的策略,并在这些任务中取得了显著的改进。

对于这些推理模型,高令牌输出速度至关重要。在强化学习(RL)工作流——如 PPO [67]、DPO [64] 和 GRPO [69]——中,迅速生成大量样本的必要性使推理吞吐量成为一个关键瓶颈。同样,长时间的推理序列会增加用户的等待时间,降低这些模型的实际可用性。因此,通过协同硬件和软件创新优化推理速度对于提高推理模型的效率至关重要。然而,加速推理和加快 RL 训练的有效策略仍然是活跃的研究领域,如第 2.1.3 节所述。我们鼓励更广泛的社区共同探索和开发解决这些持续挑战的新方案。

2.4 技术验证方法学

每种加速技术都经过严格的实证验证,以评估其对准确率的影响,包括 MLA、FP8 混合精度计算和网络协同设计的 MoE 网关路由。鉴于对完整规模模型进行全面消融实验的高昂成本,我们采用了一种分层且资源高效的验证管道。每种技术首先在小型模型上进行广泛验证,然后进行少量大规模调优,最后集成到一次全面的训练运行中。

例如,我们在最终整合前,对 16B 和 230B 的 DeepSeek-V2 模型进行了精细的 FP8 训练消融研究。在这些受控设置下,相对 BF16 的准确率损失保持在 0.25%0.25 \%0.25% 以下,归因于我们使用高精度累加和精细量化策略。

3 低精度驱动设计

3.1 FP8 混合精度训练

量化技术如 GPTQ [32] 和 AWQ [51] 已被广泛应用于将位宽减少到 8 位、4 位甚至更低,显著减少了内存需求。然而,这些技术主要应用于推理阶段以节省内存,而不是在训练阶段。NVIDIA 的 Transformer Engine 一直支持 FP8 混合精度训练,但在 DeepSeek-V3 之前,没有开源的大模型利用 FP8 进行训练。通过我们基础设施和算法团队的深度合作,经过广泛的实验和创新,我们开发了一个适用于 MoE 模型的 FP8 兼容训练框架。图 1 显示了训练管道中使用 FP8 精度正向和反向过程的计算组件。应用了精细量化,即激活的逐块 1x128 量化和模型权重的块状 128x128 量化。DeepSeek-V3 技术报告 [26] 中详细记录了我们 FP8 框架的进一步技术细节,我们的精细 FP8 GEMM 实现已开源在 DeepGEMM [77] 中。
3.1.1 局限性:尽管 FP8 在加速训练方面具有巨大潜力,但需要解决几个硬件局限性以充分挖掘其能力:

  • FP8 累加精度:FP8 在 Tensor Cores 中使用受限的累加精度,影响大规模模型训练的稳定性,尤其是在 NVIDIA Hopper GPU 上。通过对齐 32 个尾数乘积,基于最大指数右移,Tensor Core 仅保留其最高 13 个分数位用于加法,并截断超出此范围的位。加法结果累加到 FP22 寄存器(1 个符号位、8 个指数位和 13 个尾数位)。
    • 细粒度量化挑战:细粒度量化如逐块和逐块量化引入了在将部分结果从 Tensor Cores 传输到 CUDA Cores 进行缩放因子乘法时的大量去量化开销。这导致频繁的数据移动,降低了计算效率并复杂化了硬件利用率。
  • 3.1.2 建议:为解决现有硬件的局限性,我们对未来设计提出以下建议:
  • 提高累加精度:硬件应提高累加寄存器精度至适当值(如 FP32),或支持可配置的累加精度,以在不同模型的训练和推理需求之间实现性能和精度的权衡。
    • 原生支持细粒度量化:硬件应原生支持细粒度量化,使 Tensor Cores 能够接收缩放因子并实现组缩放矩阵乘法。这样,整个部分和累加和去量化可以直接在 Tensor Cores 中完成,直到产生最终结果,避免频繁的数据移动以减少去量化开销。NVIDIA Blackwell 支持微缩放数据格式 [66] 是这种方法的一个显著工业实现,体现了原生量化在规模上的实际好处。

3.2 LogFMT:通信压缩

在当前的 DeepSeek-V3 架构中,我们对网络通信采用低精度压缩。在 EP 并行过程中,使用细粒度 FP8 量化进行标记分派,与 BF16 相比减少了 50% 的通信量。这显著降低了通信时间。尽管结合阶段由于精度要求仍使用较高精度(如 BF16),我们正在积极测试 FP8、自定义精度格式(如 E5M6)和混合 FP8-BF16 以进一步减少通信量。

除了这些传统的浮点格式外,我们还尝试了一种新的数据类型,名为对数浮点格式(LogFMT-nBit),其中 n 是位数,首位 1 位作为符号位 S。通过将激活从原始线性空间映射到对数空间,激活分布更加均匀。具体来说,给定一个元素块,[x1,⋯ ,xm]\left[x_{1}, \cdots, x_{m}\right][x1,,xm],在我们的实现中为 1 x 128,我们取绝对值并计算所有元素的对数值,并找到最小值 min⁡=log⁡(abs(x1))\min =\log \left(a b s\left(x_{1}\right)\right)min=log(abs(x1)) 和最大值 max⁡=log⁡(abs(x2))\max =\log \left(a b s\left(x_{2}\right)\right)max=log(abs(x2))。最小值编码为 S.00⋯01S .00 \cdots 01S.0001,最大值编码为 S.11⋯11S .11 \cdots 11S.1111,区间表示 Step =max⁡−min⁡0m⋯2=\frac{\max -\min }{0^{m} \cdots 2}=0m2maxmin。零值由 S.00⋯00S .00 \cdots 00S.0000 特别表示。剩余值四舍五入到最接近整数 KKK 倍的 Step。解码过程简单,通过组合符号位和 exp⁡min+Step×(K−1)\exp ^{m i n+S t e p \times(K-1)}expmin+Step×(K1)

通过局部计算 min 和 Step,这种数据类型支持不同块的动态表示范围,覆盖更大的范围或提供更高的精度,与静态浮点格式相比。此外,我们发现在线性空间而不是对数空间中进行舍入对于无偏激活量化很重要。我们还将 min 限制为大于 max⁡−log⁡(232)\max -\log \left(2^{32}\right)maxlog(232),这意味着最大表示范围类似于 E5,一种具有 5 个指数的浮点数。我们在约 70 亿参数的密集语言模型上验证了 LogFMT-nBit,通过量化残差分支的输出来模拟 MoE 模型中的结合阶段。当设置 n=8n=8n=8 时,与 FP8 具有相同位数,LogFMT-8Bit 显示出优越的
img-1.jpeg

图2:H800节点互联。
训练精度优于E4M3或E5M2。当增加nnn到10位时,我们发现它类似于BF16结合阶段。
3.2.1 局限性:使用LogFMT的初衷是在传输或接近激活函数时应用它,因为它在相同位宽下比FP8具有更高的精度。然而,后续计算需要重新转换为BF16或FP8以适应Hopper GPU张量核心的数据类型。由于GPU带宽不足以进行log/exp运算以及编码/解码期间过多的寄存器压力,如果将编码/解码操作与全网通信融合,则开销可能会很大(50%~100%)。因此,尽管实验结果验证了这种格式的有效性,我们最终并未采用它。
3.2.2 建议:为未来硬件提供定制FP8或自定义精度格式的压缩和解压缩单元的原生支持是一种可行方法。这可以帮助最小化带宽需求并简化通信管道。减少通信开销对像MoE训练这样的带宽密集型任务特别有帮助。

4 互联驱动设计

4.1 当前硬件架构

我们目前使用的NVIDIA H800 GPU SXM架构,如图2所示,基于Hopper架构,类似于H100 GPU。然而,它具有降低的FP64计算性能和NVLink带宽以符合监管规定。具体来说,H800 SXM节点的NVLink带宽从900 GB/s900 \mathrm{~GB} / \mathrm{s}900 GB/s减少到400 GB/s400 \mathrm{~GB} / \mathrm{s}400 GB/s。这种显著减少的节点内规模扩展带宽对高性能工作负载提出了挑战。为补偿这一点,每个节点配备了八个400 G Infiniband(IB)CX7 NIC,增强了规模外延能力以弥补带宽不足。

为应对这些硬件限制,DeepSeek-V3模型结合了几种设计考虑因素,与硬件的优势和局限性相匹配。

4.2 硬件感知并行性

为与H800架构的限制相匹配,考虑了以下并行性策略以优化DeepSeek-V3的性能:

  • 避免张量并行(TP):由于在有限的NVLink带宽下效率低下,训练期间避免使用张量并行。然而,在推理期间,可以选择性地使用TP以减少延迟并提高TPOT性能。
    • 增强管道并行(PP):采用DualPipe [29] 来重叠注意力和MoE计算与MoE通信。这还减少了管道气泡并平衡了GPU之间的内存使用,提高了整体吞吐量。更多细节请参阅技术报告 [26]。
    • 加速专家并行(EP):借助八个400Gbps InfiniBand(IB)NIC,系统实现了超过40 GB/s40 \mathrm{~GB} / \mathrm{s}40 GB/s的全对全通信。值得注意的是,我们的全对全EP实现DeepEP [78] 已开源,支持高效的专家并行性,详见下一小节。

4.3 模型协同设计:节点受限路由

H800架构中规模扩展(节点内)和规模外延(节点间)通信的带宽差异约为4:1。具体来说,NVLink提供200GB/s带宽(其中约160 GB/s160 \mathrm{~GB} / \mathrm{s}160 GB/s可以实际实现),而每个400 Gbps IB NIC仅提供50GB/s带宽(我们考虑到小消息大小和延迟影响,使用40 GB/s40 \mathrm{~GB} / \mathrm{s}40 GB/s作为有效带宽)。为了平衡和充分利用较高的节点内带宽,模型架构与硬件协同设计,特别是在TopK专家选择策略中。

考虑一个由8个节点(共64个GPU)和256个路由专家(每个GPU 4个专家)组成的设置。对于DeepSeek-V3,每个标记被路由到一个共享专家和8个路由专家。如果其8个目标专家分布在所有8个节点上,则通过IB的通信时间为8t8 t8t,其中ttt表示通过IB发送一个标记所需的时间。然而,通过利用较高的NVLink带宽,路由到同一节点的标记可以通过IB发送一次,然后通过NVLink转发到其他节点内的GPU。NVLink转发实现了IB流量的去重。当给定标记的目标专家分布在MMM个节点上时,去重后的IB通信成本将减少到Mt(M<8)M t(M<8)Mt(M<8)

由于IB流量仅取决于MMM,DeepSeek-V3引入了节点受限路由的TopK专家选择策略。具体来说,我们将256个路由专家分成8组,每组32个专家,并将每组部署在一个节点上。在此部署基础上,我们通过算法确保每个标记最多路由到4个节点。这种方法缓解了IB通信的瓶颈,并增强了训练期间的有效通信带宽。

4.4 规模扩展与规模外延收敛

4.4.1 当前实现的局限性。虽然节点受限路由策略减少了通信带宽需求,但由于节点内(NVLink)和节点间(IB)互联之间的带宽差异,它使通信管道内核实现复杂化。实际上,GPU Streaming Multiprocessors(SM)线程既用于网络消息处理(例如,填充QP和WQEs)也用于通过NVLink进行数据转发,消耗了计算资源。例如,在训练期间,H800 GPU上的多达20个SM被分配用于通信相关操作,这使得可用于实际计算的资源减少。为了在在线推理中最大化吞吐量,我们完全通过NIC RDMA执行EP全对全通信,避免SM资源竞争并提高计算效率。这突显了RDMA异步通信模型在重叠计算和通信方面的优势。

以下是EP通信期间SM当前执行的关键任务,特别是对于组合阶段的归约操作和数据类型转换。将这些任务卸载到专用通信硬件可以释放SM用于计算内核,显著提高整体效率:

  • 转发数据:在IB和NVLink域之间聚合发送到同一节点内多个GPU的IB流量。
    • 数据传输:在RDMA缓冲区(注册的GPU内存区域)和输入/输出缓冲区之间移动数据。
    • 归约操作:执行EP全对全组合通信所需的归约操作。
    • 管理内存布局:处理跨IB和NVLink域的分块数据传输的细粒度内存布局。
    • 数据类型转换:在全对全通信前后转换数据类型。
  • 4.4.2 建议:为解决这些低效问题,我们强烈建议未来的硬件应将节点内(规模扩展)和节点间(规模外延)通信整合到一个统一框架中。通过引入专门的协处理器来管理网络流量并在NVLink和IB域之间实现无缝转发,这种设计可以减少软件复杂性并最大化带宽利用率。例如,DeepSeek-V3中使用的节点受限路由策略可以通过硬件支持动态流量去重进一步优化。
    我们还认识到新兴的互连协议,如超以太网联盟(UEC)[17, 18]、超加速器链路(UALink)[16],它们都准备推动规模扩展和规模外延通信的进步。最近,统一总线(UB)[49] 引入了一种新的规模扩展和规模外延收敛方法。第6节进一步探讨了由UEC和UALink提出的一些技术创新。然而,在本节中,我们的重点是在编程框架级别上实现规模扩展和规模外延的收敛:(1) 统一网络适配器:设计连接到统一规模扩展和规模外延网络的网卡(NIC)或I/O芯片。这些适配器还应支持基本的交换功能,例如将规模外延网络中的数据包转发到规模扩展网络中的特定GPU。这可以通过使用单个本地标识符(LID)或IP地址与基于策略的路由来实现。(2) 专用通信协处理器:引入专用协处理器或可编程组件——如I/O芯片——来处理网络流量。该组件将卸载GPU SM的数据包处理,防止性能下降。此外,它应包括硬件加速的内存复制功能以实现高效的缓冲区管理。(3) 灵活的转发、广播和归约机制:硬件应支持跨规模扩展和规模外延网络的灵活转发、广播操作(用于EP调度)和归约操作(用于EP组合),类似于我们目前基于GPU SM的实现。这不仅会提高有效带宽,还会减少特定网络操作的计算复杂度。(4) 硬件同步原语:提供精细的硬件同步指令来在硬件层面处理内存一致性问题或无序数据包到达问题。这将消除基于RDMA完成事件的软件同步机制的需求,后者会引入额外延迟并增加编程复杂度。具有获取/释放机制的内存语义通信是一种有前途的实现方式。
    通过实施这些建议,未来硬件设计可以在显著增强大规模分布式AI系统的效率的同时简化软件开发。

4.5 带宽争用和延迟

4.5.1 局限性:此外,当前硬件缺乏在NVLink和PCIe上动态分配不同类型流量带宽的灵活性。例如,在推理过程中,从CPU内存传输KV缓存数据到GPU可能会消耗数十GB/s,饱和PCIe带宽。如果GPU同时使用IB进行EP通信,KV缓存传输和EP通信之间的争用可能会降低整体性能并导致延迟峰值。

4.5.2 建议:

  • 动态NVLink/PCIe流量优先级:硬件应支持基于其类型的流量动态优先级。例如,与EP、TP和KV缓存传输相关的流量应分配不同的优先级以最大化互连效率。对于PCIe,将流量类别(TC)暴露给用户级编程就足够了。
    • I/O芯片集成:将NIC直接集成到I/O芯片并连接到同一封装中的计算芯片,而不是通过传统的PCIe,可以大幅减少通信延迟并缓解PCIe带宽争用。
    • 规模扩展域内的CPU-GPU互联:为了进一步优化节点内通信,CPU和GPU应使用NVLink或类似的专用高带宽结构互联,而不是仅仅依赖PCIe。类似于将NIC集成到I/O芯片所带来的好处,这种方法可以显著改善训练和推理期间在GPU和CPU内存之间卸载参数或KV缓存等场景。

5 大规模网络驱动设计

5.1 网络协同设计:多平面Fat-Tree

在DeepSeek-V3的训练过程中,我们部署了一个多平面Fat-Tree(MPFT)规模外网络,如图3所示。每个节点配备八个GPU和八个IB NIC,每个GPU-NIC对分配到一个独立的网络平面。此外,每个节点都有一个400 Gbps Ethernet RoCE NIC连接到单独的存储网络平面,用于访问3FS [30] 分布式文件系统。在规模外网络中,我们使用了64端口400G IB交换机,理论上支持最多16,384个GPU
img-2.jpeg

图3:八平面两层fat-tree扩展网络:每个GPU和IB NIC对属于一个网络平面。跨平面流量必须使用另一个NIC和PCIe或NVLink进行节点内转发。
同时保留了两层网络的成本和延迟优势。然而,由于政策和监管限制,最终只部署了两千多个GPU。

此外,由于当前IB ConnectX-7的限制,我们部署的MPFT网络未能完全实现预期架构。理想情况下,如图4所示,每个NIC应具备多个物理端口,每个端口连接到一个独立的网络平面,但通过端口绑定集体向用户暴露为单个逻辑接口。从用户角度来看,单个队列对(QP)可以无缝地跨所有可用端口发送和接收消息,类似于包喷射。因此,源自同一QP的包可能经过不同的网络路径并到达接收方时顺序混乱,这就需要NIC内部原生支持乱序放置以确保消息一致性和正确的顺序语义。例如,InfiniBand ConnectX-8原生支持四个平面。未来NICs全面支持高级多平面功能将是有利的,允许两层Fat-Tree网络有效地扩展到更大的AI集群。总体而言,多平面架构在故障隔离、鲁棒性、负载均衡和大规模系统可扩展性方面提供了显著优势。

5.1.1 多平面Fat-Tree网络的优势。

  • 多轨Fat-Tree(MRFT)子集:MPFT拓扑构成更广泛的MRFT架构的一个特定子集。因此,NVIDIA和NCCL为Multi-Rail网络开发的现有优化可以无缝应用于Multi-Plane网络部署。此外,NCCL对PXN [54] 技术的支持解决了固有的跨平面隔离挑战,即使在没有平面间直接互连的情况下也能实现高效通信。
    • 成本效益:如表3所示,多平面网络使用两层Fat-Tree(FT2)拓扑启用超过10k终端,与三层Fat-Tree(FT3)相比显著减少了网络成本。每终端的成本甚至比成本效益高的Slim Fly(SF)拓扑 [12] 更具竞争力。
    • 流量隔离:每个平面独立运行,确保一个平面的拥塞不影响其他平面。这种隔离提高了整体网络稳定性,防止了级联性能退化。
  • img-3.jpeg
    图4:理想多平面网络:每个NIC配备多个物理端口,每个端口连接到一个独立的网络平面。单个队列对(QP)可以同时利用所有可用端口进行包发送和接收,这需要NIC内部原生支持乱序放置。

表3:网络拓扑比较。成本估计来源于Slim Fly(SF)论文 [12] 的方法。DF表示经典的蜻蜓拓扑 [22, 46, 65]。

指标 FT2 MPFT FT3 SF DF
终端 2,048 16,384 65,536 32,928 261,632
交换机 96 768 5,120 1,568 16,352
链接 2,048 16,384 131,072 32,928 384,272
成本 [M$] 9 72 491 146 1,522
每终端成本 [k$] 4.39 4.39 7.5 4.4 5.8
  • 降低延迟:两层拓扑比三层Fat-Tree实现了更低的延迟,如我们在实验中所展示的那样。这使其特别适合于对延迟敏感的应用程序,如基于MoE的训练和推理。
    • 鲁棒性:如图4所示,多端口NIC提供了多个上行链路,因此单端口故障不会中断连接,并且可以快速透明地恢复故障。需要注意的是,由于当前400G NDR InfiniBand的限制,跨平面通信需要节点内转发,这在推理过程中引入了额外的延迟。如果未来硬件能够实现规模扩展和规模外网络的融合,如前所述,这种延迟可以显著减少,进一步增强多平面网络的可行性。 5.1.2 性能分析。为了验证多平面网络设计的有效性,我们在集群上进行了实际实验,修改了集群的网络拓扑以比较多平面两层Fat Tree(MPFT)和单平面多轨Fat Tree(MRFT)的性能。以下是我们的实验关键发现:
  1. 全对全通信和EP场景:如图5所示,多平面网络的全对全性能与单平面多轨网络非常相似。这种性能平等可以归因于NCCL的PXN [54] 机制,该机制优化了多轨拓扑中的流量转发。多平面拓扑也受益于这一机制。如图6所示,针对16个GPU进行的全对全通信测试结果表明,MPFT和MRFT拓扑之间的延迟差异可以忽略不计。
    为了评估MPFT在实际训练场景中的全对全通信性能,我们测试了训练期间常用的EP通信模式。如图7所示,

img-4.jpeg

图5:MRFT和MPFT网络从32到128个GPU的NCCL全对全性能。

每个

img-4.jpeg

图5:MRFT和MPFT网络从32到128个GPU的NCCL全对全性能。

GPU在多平面网络中实现了超过 40 GB/s40 \mathrm{~GB} / \mathrm{s}40 GB/s 的高带宽,提供了满足训练需求的可靠性能。2. DeepSeek-V3模型的训练吞吐量:我们还在表4中比较了MPFT和MRFT在DeepSeek-V3模型训练中的指标。MFU(模型浮点运算利用率)是基于BF16峰值性能计算的。因果MFU仅考虑注意力矩阵下三角的浮点数(与FlashAttention[19, 20]一致),而非因果MFU包括整个注意力矩阵的浮点数(与Megatron [47]一致)。1F、1B和1W分别表示前向时间、输入后向时间和权重后向时间。当在2048个GPU上训练V3模型时,MPFT的性能几乎与MRFT相同,观察到的差异在正常波动和测量误差范围内。

5.2 低延迟网络

在我们的模型推理中,大规模EP严重依赖全对全通信,这对带宽和延迟都非常敏感。考虑第2.3.2节讨论的典型场景,假设网络带宽为 50 GB/s50 \mathrm{~GB} / \mathrm{s}50 GB/s,数据传输理想情况下应花费大约 120μ s120 \mu \mathrm{~s}120μ s。因此,微秒级别的内在网络延迟会对系统性能产生重要影响,使其效果不可忽视。 5.2.1 IB或RoCE。如表5所示,IB始终实现较低的延迟,使其成为延迟敏感工作负载(如分布式训练和推理)的首选。
img-5.jpeg

图6:在不同消息大小下,MPFT和MRFT网络在NCCL全对全测试中的延迟对比,显示它们的性能几乎相同。
img-6.jpeg

图7:MPFT上的DeepEP性能:EP调度和合并内核在16到128个GPU之间使用全对全通信。每个GPU处理4096个令牌。观察到的吞吐量几乎饱和了400Gps NIC带宽。
尽管IB相比RDMA over Converged Ethernet(RoCE)具有优越的延迟性能,但也存在一定的局限性:

  • 成本:IB硬件比RoCE解决方案贵得多,限制了其广泛采用。
    • 可扩展性:IB交换机通常每台支持64个端口,而RoCE交换机常见的是128个端口。这限制了基于IB的集群的可扩展性,尤其是在大规模部署中。
  • 5.2.2 对RoCE改进的建议。虽然RoCE有可能成为IB的成本效益替代品,但其当前在延迟和可扩展性方面的局限性阻碍了它完全满足大规模AI系统的需求。下面,我们具体提出了改进RoCE的建议:
  • (1) 专用低延迟RoCE交换机:我们建议以太网供应商开发专门针对RDMA工作负载优化的RoCE交换机,通过移除不必要的以太网特性。Slingshot架构 [22] 展示了基于以太网的设计如何实现与IB相当的延迟性能。同样,博通 [13] 最近的创新,包括AI转发头(AIFH)和即将推出的低延迟以太网交换机,证明了定制高性能以太网结构适用于AI的可能性。我们期待这一方向的持续创新。
    表4:MPFT和MRFT网络之间的训练指标比较。
指标 MPFT MRFT
每天令牌数 (B) 272.80 272.52
每步时间 (s) 19.926 19.946
1F (s) 1.13 1.13
泡泡 (s) 2.06 2.03
1B (s) 1.99 1.99
1W (s) 0.48 0.48
1F1B (s) 13.95 14.00
opt (s) 0.29 0.31
TFLOPS(非因果) 432 432
TFLOPS(因果) 385 385
MFU(非因果) 43.73%43.73 \%43.73% 43.68%43.68 \%43.68%
MFU(因果) 38.94%38.94 \%38.94% 38.90%38.90 \%38.90%

表5:64B数据传输时,IB、RoCE和节点内NVLink的端到端延迟比较。

链路层 同一叶 跨叶
RoCE 3.6 us 5.6 us
InfiniBand 2.8 us 3.7 us
NVLink 3.33 us -

(2) 优化路由策略:如图8所示,RoCE默认的等价多路径(ECMP)路由策略难以在互连中高效分布流量,导致NCCL集体通信测试中严重的拥塞性能下降。LLM训练流量,如DP(数据并行)中的流量,往往缺乏随机性,导致多流汇聚在同一互连链路上。相比之下,自适应路由(AR)[34] 可以通过动态喷洒数据包到多条路径上显著增强网络性能。虽然基于静态路由的手动配置路由表可以避免特定目的地的链路冲突,但缺乏灵活性。对于大规模全对全通信,自适应路由提供更好的性能和可扩展性。
(3) 改进的流量隔离或拥塞控制机制:当前的RoCE交换机仅支持有限数量的优先级队列,这对于涉及并发通信模式(如EP的全对全和DP的全减法)的复杂AI工作负载来说是不够的。在这种混合工作负载中,全对全流量可能导致突发的多对一转移引起的拥塞,从而可能降低整体网络性能。为了解决拥塞对其他流量的影响,一种方法是采用虚拟输出队列(VOQ),为每个QP分配专用虚拟队列以隔离流量流。或者,可以采用更有效的拥塞控制(CC)机制,如基于RTT的CC(RTTCC)或用户可编程CC(PCC),使NIC-交换机协同优化以在动态流量条件下保持低延迟和高吞吐量。
5.2.3 InfiniBand GPUDirect Async (IBGDA)。我们利用IBGDA [2, 57] 来减少网络通信中的延迟。传统上,网络通信涉及创建一个CPU代理线程:一旦GPU准备好数据,就必须通知CPU代理,后者然后填充
img-7.jpeg

图8:不同路由方法(ECMP、AR、静态路由)和TP维度下的AllGather和ReduceScatter通信基元的RoCE网络带宽。
工作请求(WR)的控制信息并通过门铃机制向NIC发出信号以启动数据传输。这个过程引入了额外的通信开销。

IBGDA通过允许GPU直接填充WR内容并写入RDMA门铃MMIO地址解决了这个问题。通过在GPU内管理整个控制平面,IBGDA消除了与GPU-CPU通信相关的显著延迟开销。此外,当发送大量小数据包时,控制平面处理器容易成为瓶颈。由于GPU拥有多个并行线程,发送方可以利用这些线程来分配工作负载,从而避免这样的瓶颈。一系列工作——包括我们的DeepEP [78]——已利用IBGDA并报告了显著的性能提升 [1, 15, 79]。因此,我们提倡此类功能在加速器设备中得到广泛支持。

6 讨论和未来硬件架构设计的见解

基于前面的部分,我们总结了关键的架构见解并概述了针对大规模AI工作负载的硬件设计的未来方向。

第2.3.2节强调了大规模扩展网络对加速模型推理的重要性。第3节讨论了对低精度计算和通信的有效支持的必要性。第4节探讨了规模扩展和规模外延架构的融合及提出的若干改进措施。第5节专注于多平面网络拓扑并确定了以太网互连所需的关键改进。

这些部分共同识别了具体的应用场景中的硬件限制并提供了相应的建议。在此基础上,本节扩展了讨论范围,提出了未来硬件架构设计的前瞻性方向。

6.1 稳健性挑战

6.1.1 局限性:

  • 互连故障:高性能互连(如IB和NVLink)容易发生间歇性断开,这会扰乱节点间的通信。这在通信密集型工作负载如EP中尤其有害,因为即使是短暂的中断也可能导致性能显著下降或作业失败。
    • 单硬件故障:节点崩溃、GPU故障或ECC(纠错码)内存错误会危及长时间运行的训练作业,通常需要昂贵的重启。这种故障的影响在大规模部署中加剧,系统规模越大,单点故障的概率越高。
    • 静默数据损坏:未被ECC机制检测到的错误,如多位内存翻转或计算不准确,对模型质量构成重大风险。这些错误在长时间运行的任务中特别隐秘,因为它们可能传播而不被察觉并破坏下游计算。当前的缓解策略依赖于应用级启发式方法,不足以确保系统级稳健性。
  • 6.1.2 关于高级错误检测和校正的建议。为了减轻静默损坏的风险,硬件必须超越传统的ECC,纳入高级错误检测机制。基于校验和的验证或硬件加速冗余检查技术可以为大规模部署提供更高的可靠性。
    此外,硬件供应商应向最终用户提供全面的诊断工具包,使他们能够严格验证系统的完整性并主动识别任何潜在的静默数据损坏。当这些工具包作为标准硬件包的一部分嵌入时,可以促进透明性并实现在整个操作生命周期中的持续验证,从而增强整体系统可信度。

6.2 CPU瓶颈和互连

虽然加速器设计常常占据中心舞台,但CPU仍然是协调计算、管理I/O和维持系统吞吐量的重要组成部分。然而,当前架构面临几个关键瓶颈:

首先,如第4.5节所述,CPU和GPU之间的PCIe接口通常成为带宽瓶颈,特别是在大规模参数、梯度或KV缓存传输期间。为缓解此问题,未来系统应采用直接CPU-GPU互连——如NVLink或Infinity Fabric——或将CPU和GPU集成到规模扩展域中,从而消除节点内瓶颈。

除了PCIe限制外,维持如此高的数据传输速率还需要极高的内存带宽。例如,饱和160条PCIe 5.0通道需要每节点超过 640 GB/s640 \mathrm{~GB} / \mathrm{s}640 GB/s,相当于每节点约 1 TB/s1 \mathrm{~TB} / \mathrm{s}1 TB/s 的内存带宽要求——这对传统DRAM架构构成了重大挑战。

最后,像内核启动和网络处理这样的延迟敏感任务需要高单核CPU性能,通常需要基准频率高于4 GHz 。此外,现代AI工作负载需要足够的CPU核心以防止控制侧瓶颈。对于小芯片架构,还需要额外的核心来支持缓存感知的工作负载分区和隔离。

6.3 人工智能的智能网络

为了满足延迟敏感工作负载的需求,未来的互连必须同时优先考虑低延迟和智能网络:

  • 共封装光学器件:结合硅光子学能够实现可扩展的更高带宽扩展和增强的能量效率,这两者对于大规模分布式系统至关重要。
    • 无损网络:基于信用的流量控制(CBFC)机制确保无损数据传输,但盲目触发流量控制可能会引起严重的头部阻塞。因此,必须部署先进的、端点驱动的拥塞控制(CC)算法,积极调节注入率并避免病理性拥塞情景。
    • 自适应路由:如第5.2.2节所述,未来的网络应该标准化采用动态路由方案——如数据包喷射和感知拥塞的路径选择——这些方案持续监控实时网络状况并智能重新分配流量。这些自适应策略在集体通信工作负载中特别有效,包括全对全和reduce-scatter操作,能够有效缓解热点和瓶颈。
    • 高效容错协议:通过部署自愈协议、冗余端口和快速故障切换技术,可以显著增强对故障的鲁棒性。例如,链路层重试机制和选择性重传协议在扩展大规模网络的可靠性方面不可或缺,最小化停机时间并确保即使在间歇性故障下也能无缝运行。
    • 动态资源管理:为有效处理混合工作负载,未来硬件应启用动态带宽分配和流量优先级设置。例如,在统一集群中,推理任务应与训练流量隔离,确保延迟敏感应用程序的响应性。

6.4 内存语义通信和排序问题讨论

使用加载/存储内存语义进行节点间通信既高效又对程序员友好,但当前实现受到内存排序挑战的阻碍。例如,在写入数据后,发送方必须在更新标志以通知接收方之前发布显式的内存屏障(fence),以确保数据一致性。这种严格的排序引入了额外的往返时间(RTT)延迟,并可能阻塞发送线程,阻碍飞行存储并降低吞吐量。类似的消息语义RDMA中也会出现乱序同步问题;例如,在InfiniBand或NVIDIA BlueField-3上进行常规RDMA写入后的RDMA原子加操作可能会增加额外的RTT延迟。

为了解决这些问题,我们提倡硬件支持提供内置的内存语义通信排序保证。这种一致性应在编程级别(例如,通过获取/释放语义)和接收端的硬件强制执行,从而无需额外开销即可实现按序交付。

几种方法是可行的。例如,接收端可以缓冲原子消息并使用数据包序列号进行有序处理。然而,获取/释放机制既优雅又高效。我们建议一种简单的概念机制,即区域获取/释放(RAR)机制,其中接收端硬件维护一个位图以跟踪RNR内存区域的状态,获取/释放操作限定在

RAR 地址范围内。通过最小的位图开销,这使得硬件强制排序变得高效,消除了发送端显式围栏,并将排序委托给硬件——理想情况下是在 NIC 或 I/O 芯片上。重要的是,RAR 机制不仅有利于内存语义操作,还扩展了消息语义 RDMA 原语的实际适用性。

6.5 网络内计算和压缩

EP 包含两个关键的全对全阶段——调度和组合——这些阶段为网络内优化提供了重要机会。调度阶段类似于小型多播操作,其中单个消息必须转发到多个目标设备。硬件级协议使自动数据包复制和转发到多个目的地能够极大地减少通信开销并提高效率。

组合阶段作为一个小型归约操作,可以从网络内聚合技术中受益。然而,由于 EP 组合中小归约范围和不平衡的工作负载,灵活实现网络内聚合具有挑战性。

此外,正如第 3.2 节所述,LogFMT 能够以最低限度影响模型性能的方式进行低精度令牌传输。将 LogFMT 原生集成到网络硬件中可以进一步优化通信,通过增加熵密度和减少带宽使用。硬件加速的压缩和解压将允许 LogFMT 无缝集成到分布式系统中,从而提高整体吞吐量。

6.6 内存为中心的创新

6.6.1 内存带宽的局限性。模型尺寸的指数增长已经超过了高带宽内存(HBM)技术的进步。这种差异造成了内存瓶颈,特别是在注意力密集型架构如变压器中。

6.6.2 建议:

  • DRAM堆叠加速器:利用先进的3D堆叠技术,DRAM晶粒可以垂直集成在逻辑晶粒之上,从而实现异常高的内存带宽、超低延迟和实用的内存容量(尽管堆叠受限)。这种架构范式对超快推理的MoE模型特别有利,其中内存吞吐量是一个关键瓶颈。SeDRAM[72] 架构展示了这种方法的潜力,为内存受限的工作负载提供了前所未有的性能。
    • 芯片级集成(SoW):晶圆级集成[50] 可以最大化计算密度和内存带宽,满足超大规模模型的需求。

7 结论

DeepSeek-V3 展示了硬件-软件协同设计在推进大规模 AI 系统的可扩展性、效率和稳健性方面的变革潜力。通过应对当前硬件架构的局限性并提出切实可行的建议,本文为下一代AI优化硬件提供了路线图。随着AI工作负载的复杂性和规模不断增长,这些创新将是至关重要的,推动智能系统未来的进步。

参考文献

[1] Elena Agostini, Davide Rossetti, and Sweram Petturi. 2017. Offloading Communication Control Logic in GPU Accelerated Applications. In 2017 17th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID). 248257. https://doi.org/10.1109/CCGRID.2017.29
[2] E. Agostini, D. Rossetti, and S. Petturi. 2018. GPUDirect Async: Exploring GPU synchronous communication techniques for InfiniBand clusters. J. Parallel and Distrib. Comput. 114 (2018), 28-45. https://doi.org/10.1016/j.jpdc.2017.12.007
[3] AlijbMeta. 2024. Llama 3 Model Card. https://github.com/meta-llama/llama3/ blob/main/MODEL_CARD.md
[4] AlijbMeta. 2024. Llama 3.1 Model Card. https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/MODEL_CARD.md
[5] Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrim, and Sumit Sanghai. 2025. GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. arXiv preprint arXiv:2305.13245 (2023).
[6] AMD. 2025. AMD Ryzen AI Max+ PRO 395: Designed to power a new generation of compact Copilot+ PC workstations. https: //www.amd.com/en/products/processors/laptop/ryzen-pro/ai-max-pro-300-series/amd-ryzen-ai-max-plus-pro-395.html
[7] Wei An, Xiao Bi, Guanting Chen, Shanhuang Chen, Chengqi Deng, Honghui Ding, Kai Dong, Qiushi Du, Wenjun Gao, Kang Guan, Jianzhong Guo, Yongjiang Guo, Zhe Fu, Ting He, Panyan Huang, Jiashi Li, Wenfeng Liang, Xiaodong Liu, Xin Liu, Yiyuan Liu, Yuxuan Liu, Shanghao Lu, Xuan Lu, Xiaotao Nie, Tian Pei, Junjie Qiu, Hui Qu, Zehui Ren, Zhangli Sha, Xuecheng Su, Xiaowen Sun, Yixuan Tan, Minghui Tang, Shiyu Wang, Yaohui Wang, Yongji Wang, Zisezi Xie, Yiliang Xiong, Yanhong Xu, Shengfeng Ye, Shuiping Yu, Yukun Zha, Liyue Zhang, Haowei Zhang, Mingchuan Zhang, Wentao Zhang, Yichao Zhang, Chenggang Zhao, Yao Zhao, Shangyan Zhou, Shunfeng Zhou, and Yuheng Zou. 2024. Fire-Flyer AIHPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning. In SC24: International Conference for High Performance Computing, Networking, Storage and Analysis. 1-23. https://doi.org/10.1109/SC41406.2024.00089
[8] Anthropic. 2024. Claude 3.5 Sonnet. https://www.anthropic.com/news/clau-de-3-sonnet
[9] Anthropic. 2025. Claude 3.7 Sonnet and Claude Code. https:// www.anthropic.com/news/clau-de-3-7-sonnet
[10] Apple. 2024. Apple introduces M4 Pro and M4 Max. https://www.apple.com/ newsroom/2024/10/apple-introduces-m4-pro-and-m4-max/
[11] Is Beltagy, Matthew E. Peters, and Arman Cohan. 2020. Longformer: The LongDocument Transformer. arXiv:2004.05150 (2020).
[12] Nils Blach, Maciej Besta, Daniele De Sensi, Jens Domke, Hussein Harake, Shigang Li, Patrick Bf, Marek Konieczny, Kartik Lakhotia, Ales Kubicek, Marcel Ferrari, Fabrizio Petrini, and Torsten Hoefler. 2025. A high-performance design, implementation, deployment, and evaluation of the slim fly network. In Proceedings of the 21st USENIX Symposium on Networked Systems Design and Implementation (Santa Clara, CA, USA) (NSDI’24). USENIX Association, USA, Article 57, 20 pages.
[13] Broadcom. 2025. Scale Up Ethernet Framework. https://docs.broadcom.com/ doc/scale-up-ethernet-framework
[14] Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, and Tri Dao. 2024. Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads. In Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. OpenReview.net. https: //openreview.net/forum?id=PEphUsbfJv
[15] Shaoyuan Chen, Wencong Xiao, Yutong Lin, Mingxing Zhang, Yingdi Shan, Jinlei Jiang, Kang Chen, and Yongwei Wu. 2025. Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation. arXiv:2405.01014 [ex.LG]. https://arxiv.org/abs/2405.01814
[16] ULTRA ACCELERATOR LINK CONSORTIUM. 2025. Introducing UALink 200G 1.0 Specification. https://ualinkconsortium.org/wp-content/uploads/2025/04/ UALink-1.0-White_Paper_FINAL.pdf
[17] Ultra Ethernet Consortium. 2023. Overview of and Motivation for the Forthcoming Ultra Ethernet Consortium Specification. https://ultraethernet.org/wp-content/uploads/sites/20/2023/10/23.07.12-UEC-1.0-Overview-FINAL-WITHLOX@1.pdf
[18] Ultra Ethernet Consortium. 2024. UEC Progresses Towards v1.0 Set of Specifications. https://ultraethernet.org/uec-progresses-towards-v1-0-set-of-specifications/
[19] Tri Dao. 2023. FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning.
[20] Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. 2022. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. In Advances in Neural Information Processing Systems.
[21] Tri Dao and Albert Gu. 2024. Transformers are SSMs: generalized models and efficient algorithms through structured state space duality. In Proceedings of the 41st International Conference on Machine Learning (Vienna, Austria) (ICML’24). JMLR.org, Article 399, 31 pages.
[22] Daniele De Sensi, Salvatore Di Girolamo, Kim H. McMahon, Duncan Roweth, and Torsten Hoefler. 2020. An In-Depth Analysis of the Slingshot Interconnect. In SC20: International Conference for High Performance Computing, Networking, Storage and Analysis. 1-14. https://doi.org/10.1109/SC41405.2020.00039
[23] DeepSeek-AI. 2024. DeepSeek-Codev V2: Breaking the Barrier of Closed-Source Models in Code Intelligence. CoRR abs/2406.11931 (2024). https://doi.org/ 10.48550/arXiv.2406.11931
[24] DeepSeek-AI. 2024. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. CoRR abs/2401.02954 (2024). https://doi.org/10.48550/arXiv.2401.02954
[25] DeepSeek-AI. 2024. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. CoRR abs/2405.04434 (2024). https://doi.org/10.48550/arXiv.2405.04434
[26] DeepSeek-AI. 2024. DeepSeek-V3 Technical Report. (2024). arXiv:2412.19437 [ex.CL]. https://arxiv.org/abs/2412.19437
[27] DeepSeek-AI. 2024. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models. CoRR abs/2401.06066 (2024). https://doi.org/10.48550/arXiv.2401.06066
[28] DeepSeek-AI. 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948 [ex.CL]. https://arxiv.org/abs/2501.12948
[29] DeepSeek-AI. 2025. DualPipe: A bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training. https://github.com/deepseek-ai/dualpipe.
[30] DeepSeek-AI. 2025. Fire-Flyer File System. https://github.com/deepseek-ai/3FS
[31] DeepSeek-AI. 2025. Profiling Data in DeepSeek Infra. https://github.com/deepseek-ai/profile-data/5ab-vrealme-sv-file#inference
[32] Elias Frantar, Saleh Ashkhous, Torsten Hoefler, and Dan Alistarh. 2022. Gptq Accurate post-training quantization for generative pre-trained transformers. arXiv preprint arXiv:2210.17323 (2022).
[33] Adithya Gangidi, Rui Miao, Shenghao Zheng, Sai Jayesh Bondu, Guilherme Goes, Hany Morsy, Rohit Puri, Mohammad Riftadi, Ashmitha Jeevaraj Shetty, Jingyi Yang, Shuqiang Zhang, Mikel Jimenez Fernandez, Shashidhar Gandham, and Hongyi Zeng. 2024. RDMA over Ethernet for Distributed Training at Meta Scale. In Proceedings of the ACM SIGCOMM 2024 Conference (Sydney, NSW, Australia) (ACM SIGCOMM '24). Association for Computing Machinery, New York, NY, USA, 57-70. https://doi.org/10.1145/3651890.3672233
[34] Patrick Geoffrey and Torsten Hoefler. 2008. Adaptive Routing Strategies for Modern High Performance Networks. In 2008 16th IEEE Symposium on High Performance Interconnects. 165-172. https://doi.org/10.1109/HOTL2008.21
[35] Amir Gholami, Zhewei Yao, Sehoon Kim, Coleman Hooper, Michael W. Mahoney, and Kurt Keutzer. 2024. AI and Memory Wall. IEEE Micro 44, 03 (May 2024), 33-39. https://doi.org/10.1109/MM.2024.3373763
[36] Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, and Gabriel Synnacre. 2024. Better & Faster Large Language Models via Multi-token Prediction. In Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. OpenReview.net. https://openreview.net/forum?ul=qEWAcejil/2
[37] Google. 2024. Introducing Gemini 2.0: our new AI model for the agentic era. https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024
[38] Google. 2025. Gemini 2.5: Our most intelligent AI model. https://blog.google/technology/google-deepmind/gemini-model-thinking-update-march-2025/
[39] MADSys group and Approaching.AI. 2025. A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations. https://github.com/kvcacheai/ktransformers
[40] Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Michael W Mahoney, Yakan Sophia Shao, Kurt Keutzer, and Amir Gholami. 2024. KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization. arXiv preprint arXiv:2401.18079 (2024).
[41] Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. 2023. Mistral 7B. arXiv preprint arXiv:2310.06825 (2023).
[42] Ziheng Jiang, Haibin Lin, Yinmin Zhong, Qi Huang, Yangrui Chen, Zhi Zhang, Yanghua Peng, Xiang Li, Cong Xie, Shibiao Nong, Yulu Jia, Sun He, Hongmin Chen, Zhihao Bai, Qi Hou, Shiyeng Yan, Dang Zhou, Yiyao Sheng, Zhuo Jiang, Haohan Xu, Haoran Wei, Zhang Zhang, Pengfei Nie, Leqi Zou, Sida Zhao, Liang Xiang, Zhenui Liu, Zhe Li, Xiaoying Jia, Jianxi Ye, Xin Jin, and Xin Liu. 2024. MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs. http://arxiv.org/abs/2402.15627 arXiv:2402.15627 [cs].
[43] Norm Jouppi, George Kurian, Sheng Li, Peter Ma, Rahul Nagarajan, Lifeng Nai, Nishant Patil, Savinay Subramanian, Andy Swing, Brian Towles, Clifford Young, Xiang Zhou, Zongwei Zhou, and David A Patterson. 2023. TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings. In Proceedings of the 50th Annual International Symposium on Computer Architecture (Orlando, FL, USA) (ISCA '23). Association for Computing Machinery, New York, NY, USA, Article 82, 14 pages. https://doi.org/10.1145/
3579371.3589350
[44] Hao Kang, Qingru Zhang, Souvik Kundu, Geonhwa Jeong, Zaoxing Liu, Tushar Krishna, and Tuo Zhao. 2024. GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM. arXiv:2403.05527 [cs.LG]
[45] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020). arXiv:2001.08361 https://arxiv.org/abs/2001.08361
[46] John Kim, Wiliam J. Dally, Steve Scott, and Dennis Abts. 2008. Technology-Driven, Highly-Scalable Dragonfly Topology. In 2008 International Symposium on Computer Architecture. 77-88. https://doi.org/10.1109/JSCA.2008.19
[47] Vijay Anand Korthikanti, Jared Casper, Sangkug Lym, Lawrence McAfee, Michael Andersch, Mohammad Shoeybi, and Bryan Catanzaro. 2023. Reducing activation recomputation in large transformer models. Proceedings of Machine Learning and Systems 5 (2023).
[48] Yuhui Li, Fangyun Wei, Chao Zhang, and Hongyang Zhang. 2024. EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty. In Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 23-27, 2024. OpenReview.net. https://openreview.net/forum?id=1Nd9UvSjN4
[49] Heng Liao, Bingyang Liu, Xiamping Chen, Zhigang Guo, Chuanming Cheng, Jianbing Wang, Xiangyu Chen, Peng Dong, Rui Meng, Wenjie Liu, Zhe Zhou, Ziyang Zhang, Yuhang Gai, Cunle Qian, Yi Xiong, Zhongwu Cheng, Jing Xia, Yuli Ma, Xi Chen, Wenhua Du, Shizhong Xiao, Chungang Li, Yong Qin, Liudong Xiong, Zhou Yu, Lv Chen, Lei Chen, Buyun Wang, Pei Wu, Junen Gao, Xiaochu Li, Jian He, Shizhuan Yan, and Bill McColl. 2025. UB-Mesh: a Hierarchically Localized nD-FullMesh Datacenter Network Architecture. arXiv:2503.20377 [cs.AR] https://arxiv.org/abs/2503.20377
[50] Sean Lin. 2022. Cerebras Architecture Deep Dive: First Look Inside the HW/SW Co-Design for Deep Learning : Cerebras Systems. In 2022 IEEE Hot Chips 34 Symposium (HCS) 1-34. https://doi.org/10.1109/HCS35958.2022.9895479
[51] Ji Lin, Jianning Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, and Song Han. 2024. AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration. In MLSys.
[52] Zirui Liu, Jiayi Yuan, Hongye Jin, Shaochen Zhong, Zhaoxhuo Xu, Vladimir Braverman, Beidi Chen, and Xia Hu. 2024. KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache. arXiv preprint arXiv:2402.02750 (2024).
[53] Junyu Luo, Weizhi Zhang, Ye Yuan, Yusheng Zhao, Junwei Yang, Yiyang Gu, Bohan Wu, Binqi Chen, Ziyue Qiao, Qingqing Long, Rongcheng Tu, Xiao Luo, Wei Ju, Zhiping Xiao, Yuhang Gai, Cunle Qian, Yi Xiong, Zhongwu Cheng, Jing Xia, Yuli Ma, Xi Chen, Wenhua Du, Shizhong Xiao, Chungang Li, Yong Qin, Liudong Xiong, Zhou Yu, Lv Chen, Lei Chen, Buyun Wang, Pei Wu, Junen Gao, Xiaochu Li, Jian He, Shizhuan Yan, and Bill McColl. 2025. Large Language Model Agent: A Survey on Methodology, Applications and Challenges. arXiv preprint arXiv:2503.21460 (2025).
[54] Karthik Mandakolathur and Sylvain Jeaugey. 2022. Doubling all2all Performance with NVIDIA Collective Communication Library 2.12. https://developer.nvidia.com/blog/doubling-all2all-performance-with-nvidia-collective-communication-library-2-12/
[55] Mistral. 2024. Cheaper, Better, Faster, Stronger: Continuing to push the frontier

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐