Qwen3-Coder-FP8模型参数量与计算量详解，建议收藏！

本文以Qwen3-Coder-FP8模型为例，详细分析了其参数量和计算量。模型由62层transformer组成，采用MoE架构，其中FFN部分参数占比高达97.5%。文章计算了Attention和FFN两部分的参数量与计算量，指出当序列长度超过8.7K时，Attention计算开销将超过FFN。此外，还介绍了GQA技术对KV Cache的优化作用。此分析有助于理解大模型的资源需求和性能瓶颈。

Python-搬运工

829人浏览 · 2025-12-07 08:30:00

Python-搬运工 · 2025-12-07 08:30:00 发布

简介

模型介绍

为具体说明，本文以 Qwen3-Coder-FP8 模型为例进行估算。模型主体由62层transformer decoder组成，每层有 Attention 与 FFN 两部分串行。因为Qwen3-Coder-FP8 是一个MoE模型，这里要将图1中 MLP Layers 替换为图2的 MoE-FFN 结构。（图1右上的超参数与Qwen3-Coder-FP8无关，Qwen3-Coder-FP8模型信息见https://www.modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8/file/view/master/config.json?status=1）。

图1 transformer内部计算细节

图2 moe FFN layer由多个小矩阵（experts）组成

此外需要注意，Qwen3-Coder-FP8在Attention模块中采用了Grouped-query Attention（GQA），以优化KV Cache的显存占用。GQA与原始的多头注意力（MHA）的核心区别在于：GQA将查询头（q heads）分组并共享同一组键值头（kv heads），大大减少kv heads的数量。

图3 GQA通过共享KV优化KV cache大小

整个模型由62个Transformer层串行堆叠。因此，我们只需剖析清楚其中一层的结构即可。以下是Qwen-Coder-FP8的部分模型信息（model config），将为后续的定量计算提供依据。

"head_dim": 128,
"hidden_size": 6144,
"model_type": "qwen3_moe",
"moe_intermediate_size": 2560,
"norm_topk_prob": true,
"num_attention_heads": 96,
"num_experts": 160,
"num_experts_per_tok": 8,
"num_hidden_layers": 62,
"num_key_value_heads": 8,

我们在kv cache一文[1]中介绍过大模型推理分为prefill和decode的两个阶段，可作为背景知识进行阅读。

MoE模型参数量

首先进行参数量计算：Qwen3-Coder模型总参数量为480B（4.8×10¹¹），这些参数主要来自于Attention和FFN两大模块。

Attention部分

Attention部分的参数量来自Q、K、V、O四个矩阵（对应图1中左下的四个Linear块），四个矩阵所包含的参数量计算如下：

Q：输入维度是hidden_size = 6144，输出维度是num_attention_heads × head_dim = 96 × 128 = 12288；
K、V：输入维度是hidden_size = 6144，输出维度是num_key_value_heads × head_dim = 8 × 128 = 1024；
O：输入维度是num_attention_heads × head_dim = 96 × 128 = 12288，输出维度是6144（进行维度还原）。

每层transformer中Q、K、V、O四个矩阵的参数量之和是6144 × 12288 + 6144 × 1024 × 2 + 12288 × 6144 = 163577856，总共62层layers，共计163577856 × 62 ≈ 10B。

FFN部分：专家参数量

每层Transformer包含160个专家，每个专家由两个矩阵构成，形状分别为(6144, 5120)和(2560, 6144)。其中，中间状态的维度从5120变为2560，是经过act\_and\_mul\_kernel激活函数处理的结果。由此，单个专家参数量为：(6144 × 5120) + (2560 × 6144) = 47185920。模型62层所有专家的总参数量则为：47185920 × 160 × 62 ≈ 468B。

Attention和FFN两部分参数量之和为478B，与模型公布的480B总参数量相吻合，验证了计算的准确性。计算参数量占比可知，Attention部分仅占约2%，而MoE-FFN部分则占比97.5%。因此，将模型多卡分布部署的关键之一在于高效实现FFN部分的专家并行（EP）或张量并行（TP），并行策略后续再结合当前开源框架进行讨论。

MoE模型推理计算量估算

在以下计算量分析中，简单起见，我们主要考虑占主导地位的矩阵运算，而忽略LayerNorm、Softmax等逐元素操作的计算量。以下只计算一层transformer中的计算量。

Attention部分的计算量

Attention部分计算量（假设当前正在处理第N个token，bs=1）如下：QKV投影计算量为 (6144×12288 + 6144×1024×2) × 2 = 176947200 FLOPs（最后乘以2是因为统计了乘法运算次数和加法运算次数总和）。

QK相关性计算量为 128×2×96×N = 24576N FLOPs，这里128是head的维度，每个q head和N个k head分别进行点积运算，每次点积运算的计算量是128×2 FLOPs，因为有96个key heads，序列长度为N，所以QK相关性计算量为128×2×96×N；加权求和计算量同样为 128×2×96×N = 24576N FLOPs。

最后输出投影还原维度的计算量为 12288×6144×2 = 150994944 FLOPs。

以上几部分计算量之和为327155712 + 49152N FLOPs。

FFN的计算开销

FFN的计算量主要来自两次GEMV：[1, 6144]×[6144, 5120] 与 [1, 2560]×[2560, 6144]，对应 (6144×5120×2 + 2560×6144×2) FLOPs。因采用Top-8路由，故每层FFN总计算量需乘以8，即为 (6144×5120×2 + 2560×6144×2) × 8 = 754974720。

单层总计算量可近似为 (327155712 + 49152N) + 754974720 FLOPs。经计算，当序列长度N > 8.7K时，Attention的计算开销将超过FFN。以上分析仅聚焦于计算量，未考虑访存瓶颈。针对KV Cache的显存与计算优化（如MQA、GQA、MLA及Linear Attention等技术），我们将在后续文章中单独进行探讨。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝 一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝 一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大