deepseek-V2完整参数配置

deepseek-v2参数配置

椒椒。

242人浏览 · 2025-12-02 13:42:21

椒椒。 · 2025-12-02 13:42:21 发布

DeepSeek-V2的参数设置整理成表格形式：

模型超参数

参数类别	参数名称	参数值	说明
基础架构	Transformer层数	60	-
	隐藏维度	5120	-
	参数初始化标准差	0.006	-
注意力机制	注意力头数(nh)	128	-
	每头维度(dh)	128	-
	KV压缩维度(dc)	512	-
	查询压缩维度(dc’)	1536	-
	解耦查询键每头维度(dhR)	64	-
MoE配置	共享专家数	2	每个MoE层
	路由专家数	160	每个MoE层
	专家中间隐藏维度	1536	-
	激活专家数	6	每个token
参数规模	总参数量	236B	-
	激活参数量	21B	每个token

训练超参数

参数类别	参数名称	参数值	说明
优化器	优化器类型	AdamW	-
	β1	0.9	-
	β2	0.95	-
	weight_decay	0.1	-
学习率调度	调度策略	warmup-and-step-decay	-
	最大学习率	2.4 × 10⁻⁴	-
	预热步数	2K	线性增长到最大值
	第一次衰减	×0.316	训练约60% tokens后
	第二次衰减	×0.316	训练约90% tokens后
训练配置	梯度裁剪范数	1.0	-
	批次大小调度	2304→9216	前225B tokens，之后保持9216
	最大序列长度	4K	-
	训练tokens总量	8.1T	-
并行配置	流水线并行	✓	不同层部署在不同设备
	路由专家部署设备数	8	每层均匀部署
	设备受限路由最大设备数	3	每个token最多发送到3个设备
平衡损失	α1	0.003	-
	α2	0.05	-
	α3	0.02	-

数据配置

参数类别	参数名称	参数值	说明
分词器	分词算法	BBPE	Byte-level Byte-Pair Encoding
	词汇表大小	100K	-
语料库	总tokens	8.1T	-
	中文tokens占比	约12%	比英文多约12%

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

4步精通AI动画生成：ComfyUI-AnimateDiff-Evolved终极指南

想要轻松创作出惊艳的AI动画吗？ComfyUI-AnimateDiff-Evolved就是你的完美选择！这款强大的AI动画生成工具让任何人都能快速上手，制作出专业级的动态视频内容。🚀## 什么是ComfyUI-AnimateDiff-Evolved？**ComfyUI-AnimateDiff-Evolved**是AnimateDiff的改进版本，专为ComfyUI设计。它不仅能生成流畅自

火山引擎 ADG 社区

Chat Nio开源AI平台终极指南：5分钟部署多模型对话系统

🚀 **Chat Nio** 是一款强大精美的开源AI聚合聊天平台，支持OpenAI、Claude、讯飞星火、Midjourney、Stable Diffusion、DALL·E、ChatGLM、通义千问、腾讯混元等主流AI模型，提供分布式流式传输、图像生成、对话跨设备同步等完整功能。## ✨ 为什么选择Chat Nio？Chat Nio作为**开源聚合AI平台**的领军者，具有以下核心

火山引擎 ADG 社区

实时人像分割：U-2-Net助力Clipping Camera实现实时拍摄

想要在手机拍摄时自动分离人物与背景，实现专业级的人像分割效果吗？U-2-Net深度神经网络模型为你提供了完美的解决方案！🎯 这款强大的实时人像分割技术已经成功应用于Clipping Camera等热门应用，让普通用户也能享受到AI技术的便利。U-2-Net是一个基于深度学习的显著性目标检测模型，专门用于实时人像分割和背景移除。它采用独特的U型架构设计，能够在保持高精度的同时实现快速处理，完美