deepseek-V2完整参数配置
deepseek-v2参数配置
·
DeepSeek-V2的参数设置整理成表格形式:
模型超参数
| 参数类别 | 参数名称 | 参数值 | 说明 |
|---|---|---|---|
| 基础架构 | Transformer层数 | 60 | - |
| 隐藏维度 | 5120 | - | |
| 参数初始化标准差 | 0.006 | - | |
| 注意力机制 | 注意力头数(nh) | 128 | - |
| 每头维度(dh) | 128 | - | |
| KV压缩维度(dc) | 512 | - | |
| 查询压缩维度(dc’) | 1536 | - | |
| 解耦查询键每头维度(dhR) | 64 | - | |
| MoE配置 | 共享专家数 | 2 | 每个MoE层 |
| 路由专家数 | 160 | 每个MoE层 | |
| 专家中间隐藏维度 | 1536 | - | |
| 激活专家数 | 6 | 每个token | |
| 参数规模 | 总参数量 | 236B | - |
| 激活参数量 | 21B | 每个token |
训练超参数
| 参数类别 | 参数名称 | 参数值 | 说明 |
|---|---|---|---|
| 优化器 | 优化器类型 | AdamW | - |
| β1 | 0.9 | - | |
| β2 | 0.95 | - | |
| weight_decay | 0.1 | - | |
| 学习率调度 | 调度策略 | warmup-and-step-decay | - |
| 最大学习率 | 2.4 × 10⁻⁴ | - | |
| 预热步数 | 2K | 线性增长到最大值 | |
| 第一次衰减 | ×0.316 | 训练约60% tokens后 | |
| 第二次衰减 | ×0.316 | 训练约90% tokens后 | |
| 训练配置 | 梯度裁剪范数 | 1.0 | - |
| 批次大小调度 | 2304→9216 | 前225B tokens,之后保持9216 | |
| 最大序列长度 | 4K | - | |
| 训练tokens总量 | 8.1T | - | |
| 并行配置 | 流水线并行 | ✓ | 不同层部署在不同设备 |
| 路由专家部署设备数 | 8 | 每层均匀部署 | |
| 设备受限路由最大设备数 | 3 | 每个token最多发送到3个设备 | |
| 平衡损失 | α1 | 0.003 | - |
| α2 | 0.05 | - | |
| α3 | 0.02 | - |
数据配置
| 参数类别 | 参数名称 | 参数值 | 说明 |
|---|---|---|---|
| 分词器 | 分词算法 | BBPE | Byte-level Byte-Pair Encoding |
| 词汇表大小 | 100K | - | |
| 语料库 | 总tokens | 8.1T | - |
| 中文tokens占比 | 约12% | 比英文多约12% |
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)