服务器跑代码的时候,报错RuntimeError: cuda runtime error (3) :initialization error at /opt/conda/...
完整报错:RuntimeError: cuda runtime error (3) : initialization error at /opt/conda/conda-bld/pytorch_1579022027550/work/aten/src/THC/THCGeneral.cpp:50THCudaCheck FAIL file=/opt/conda/conda-bld/pytorch_157
完整报错:
RuntimeError: cuda runtime error (3) : initialization error at /opt/conda/conda-bld/pytorch_1579022027550/work/aten/src/THC/THCGeneral.cpp:50
THCudaCheck FAIL file=/opt/conda/conda-bld/pytorch_1579022027550/work/aten/src/THC/THCGeneral.cpp line=50 error=3 : initialization error
去google搜了一下,类似的错误很少。有一个完全相同的,答案是cuda用不了这个gpu。当时我直接排除了,心想我的cuda都是配好的,怎么可能是这个问题。但是其他的搜索结果都跟我这个不太相同。
我也怀疑过是不是一下子用四张卡太多了,服务器没这么多卡?
于是改用一张卡,结果报错还是一样。
最后鬼使神差地试了一下torch.cuda_is_available()
,发现我连gpu都用不了。
直接输入nvidia-smi
,更是显示:
最后询问学长,才知道,这个服务器的3号卡就是有问题。不能用,一调用,基本就得重启服务器。
所以原来这个报错的意思很简单,就是3号卡有问题,无法初始化。后面虽然我试过一张卡,但是由于前面3号卡已经把服务器的gpu搞崩了,重启之前没法用gpu,所以还是报一样的错。
欢迎来到由智源人工智能研究院发起的Triton中文社区,这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂,为推动人工智能技术的普及与深化应用贡献力量。
更多推荐
所有评论(0)