最近要急着做CV的内容,需要跑别人给的一个程序,并加入自己的构想,自己有台4050,等训练起来才知道有多慢;跑模型时就想当时怎么花钱买个了这,人家用3060或者4090都说比我速度快,我也没用过,但是的确需要一台这样的机器能够跑模型。

实验室10月份到了一台服务器,上了两块5090,专用于做科研跑模型写文章,当时问要什么系统,也是为了图方便,直接装了win11,后续就是遇到很多问题,很多在笔记本上配置好的,在这台服务器就有问题。

说几个要命的问题:

(1)原来的程序是基于pytorch2.1+cuda11.8的,只要运行就提示5090是blackwell架构,sm_120算力,cuda11.8不适配,也不是不能运行,但就是报警告,偶尔还会报错,

UserWarning: NVIDIA GeForce RTX 5090 with CUDA capability sm_120 is not compatible with the current PyTorch installation.

网上查了,需要安装pytorch2.7+cuda12.8,pytorch2.7以上才可以,回想起来还好是10月份拿到的设备,如果是2、3月份,估计就歇菜了,看了nvidia官方的内容,pytorch上半年还不支持sm_120,conda和pip命令现在也不行,deepseek和chatgpt给出的命令也都安装不进去,清华的源和好几个国内的源都试了,也不行,网上让用nightly版本,不停的提示轮子要配合,原来的程序是基于python3.10;当然现在这些问题解决了;登录这个网址:https://download.pytorch.org/whl/cu128/

找到对应的pytorch,编译完的版本,根据自己的python版本选择下载,当然也要配合适版本的torchvision和torchaudio,文件挺大,这里一定要版本配合,cu12.8就都是。

(2)第二是模型训练好,一预测就会出问题,提示如下:
ValueError: Cannot assign non-leaf Tensor to parameter 'weight'. Model parameters must be created explicitly. To express 'weight' as a function of another Tensor, compute the value in the forward() method.

我怎么也想不通,一样的程序在4050的电脑上就可以,很奇怪,百度查了一下,原来是因为两张显卡的问题,os.environ[“CUDA_VISIBLE_DEVICES”] = ‘0’;好了ok。

我原来想的是用两张卡,等这次搞完,一定要在ubuntu下搞定双卡联合运行,怕被领导问起来。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐