DeepSeek-V2的参数设置整理成表格形式:

模型超参数

参数类别 参数名称 参数值 说明
基础架构 Transformer层数 60 -
隐藏维度 5120 -
参数初始化标准差 0.006 -
注意力机制 注意力头数(nh) 128 -
每头维度(dh) 128 -
KV压缩维度(dc) 512 -
查询压缩维度(dc’) 1536 -
解耦查询键每头维度(dhR) 64 -
MoE配置 共享专家数 2 每个MoE层
路由专家数 160 每个MoE层
专家中间隐藏维度 1536 -
激活专家数 6 每个token
参数规模 总参数量 236B -
激活参数量 21B 每个token

训练超参数

参数类别 参数名称 参数值 说明
优化器 优化器类型 AdamW -
β1 0.9 -
β2 0.95 -
weight_decay 0.1 -
学习率调度 调度策略 warmup-and-step-decay -
最大学习率 2.4 × 10⁻⁴ -
预热步数 2K 线性增长到最大值
第一次衰减 ×0.316 训练约60% tokens后
第二次衰减 ×0.316 训练约90% tokens后
训练配置 梯度裁剪范数 1.0 -
批次大小调度 2304→9216 前225B tokens,之后保持9216
最大序列长度 4K -
训练tokens总量 8.1T -
并行配置 流水线并行 不同层部署在不同设备
路由专家部署设备数 8 每层均匀部署
设备受限路由最大设备数 3 每个token最多发送到3个设备
平衡损失 α1 0.003 -
α2 0.05 -
α3 0.02 -

数据配置

参数类别 参数名称 参数值 说明
分词器 分词算法 BBPE Byte-level Byte-Pair Encoding
词汇表大小 100K -
语料库 总tokens 8.1T -
中文tokens占比 约12% 比英文多约12%

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐