为了获取真机大模型训练的流量模式,训练GPT3,但只设置了30iterations。
原来的nsys profile命令:

nsys profile --trace=cuda,nvtx,mpi  --backtrace=dwarf -o $log_file.nsys-rep --delay=25 --nic-metrics=true --gpu-metrics-device=all --force-overwrite true \

然后能够正常生成nsys-rep,但rep里几乎没有任何trace,并且有一个error

但是自查nsys status一切正常得可怕。网上这类问题一般是Linux Kernel Paranoid Level>2,而我的环境中为-1,不是这个问题。

经过一整天的各种排查,换容器、更新nsys、换机器……
最后发现是30iterations在我--delay的25s里几乎已经跑完了,去掉--delay参数,或者设置更多的iterations即可。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐