分布式并行策略关系说明
worldsize = NNODES * NPUS_PER_NODE = DP * PP * TP * CP
NNODES:服务器数量
NPUS_PER_NODE:每台服务器NPU卡数
MindSpeed-LLM没有配置数据并行DP的参数,是根据如下公式自动算出来的:
DP = worldsize / (TP * PP * CP)
注意:TP、PP、CP需手动配置,CP如果不配置默认是1

示例一:稠密模型


DP = (NNODES * NPUS_PER_NODE) / (TP * PP * CP) = 2

示例二:稀疏模型


DP = (NNODES * NPUS_PER_NODE) / (TP * PP * CP) = 16
注意:EP不影响DP的计算,EP只影响MOE部分的专家分布

MBS、GBS、DP的关系说明
MBS:微批次大小,表示每个DP并行组内单次训练的样本量;
GBS:全局批次大小,表示分布式训练中跨设备的总训练样本量;
GA:梯度累积,表示每个DP并行组内处理多少个MBS后更新梯度;
MindSpeed-LLM没有配置梯度累积GA的参数,是根据如下公式自动算出来的:
GA = GBS / MBS / DP

iters、epochs、训练数据量的关系说明
iters:迭代步数;
epochs:训练轮数;
MindSpeed-LLM没有配置训练轮数epochs的参数,是根据如下公式自动算出来的:
epochs = GBS * iters / 训练数据集样本数量
s = GBS * iters / 训练数据集样本数量
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/wy746801669wy/article/details/149118056

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐