背景

团队的小哥去现场出差,要将咱们最新的AI编码助手给现场给部署上去,同时,最近deepseek不是非常火么,所以也换一个大模型试试效果。

抵达现场后,劈里啪啦一顿操作猛如虎,然后测试时就gg了,一个请求响应居然要1分钟,完犊子,感觉查看ollama,然后发现报cuda初始化有问题,很明显,显卡出问题了

从ollama日志中看不出来啥情况,那么只能看看显卡当前状态,直接执行navidia-smi看看,我们的机器中应该是2张显卡的,但是现在只显示一张了,而且,在机器重启后会正常显示2张,但是过一段时间后命令查看就会不见一张显卡,此时可以考虑看下硬件日志,通过ipmi接口查看设备监控,发现异常了,就是在运行一段时间后,显卡温度跑到了90多度,然后系统把这个显卡给下了,查看电源功率也是能够带动2张显卡了,那么这明显就需要机器的厂商来查看为啥出现这个问题了,Nice,甩锅了!!!不过还得推动一下现场童鞋跟踪一下这个问题。

使用的纳伟达显卡,所以有些不常见的问题可以在它们的论坛上获取,这次的问题就是从这个问题Unable to determine the device handle for GPU 0000:21:00.0: Unknown Error - Graphics / Linux / Linux - NVIDIA Developer Forums中获取答案后跟现场对比的

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐