docker 内 pytorch cuda 不可用

NVIDIA 在 /usr/local/cuda/compat/ 目录下提供了一些兼容库 (libcuda.so.1 等)，但如果主机的 NVIDIA 驱动版本较新，则不需要这些兼容库。强行使用这些库可能会导致不匹配的 CUDA 版本，从而触发 Error 804。conda 安装2.5.0 的 pytorch 后，使用 cuda 报错。拉的官方 docker 仓库里的镜像。nvidia-smi

haiya2001

544人浏览 · 2025-03-20 15:25:54

haiya2001 · 2025-03-20 15:25:54 发布

拉的官方 docker 仓库里的镜像
nvidia/cuda:12.4.1-cudnn-devel-rockylinux8

conda 安装2.5.0 的 pytorch 后，使用 cuda 报错

(myenv) [root@000b4321253c opt]# python test1.py 
可用 GPU 数量： 1
检测 CUDA 时出错： Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 804: forward compatibility was attempted on non supported HW

我的 test1.py 代码

import torch

try:
    device_count = torch.cuda.device_count()
    print("可用 GPU 数量：", device_count)
    for i in range(device_count):
        print(f"GPU {i}: {torch.cuda.get_device_name(i)}")
except Exception as e:
    print("检测 CUDA 时出错：", e)

nvidia-smi 可以执行

直接贴原因:
NVIDIA 在 /usr/local/cuda/compat/ 目录下提供了一些兼容库 (libcuda.so.1 等)，但如果主机的 NVIDIA 驱动版本较新，则不需要这些兼容库。强行使用这些库可能会导致不匹配的 CUDA 版本，从而触发 Error 804。

解决方案：

rm -rf /usr/local/cuda/compat

Triton中文社区

欢迎来到由智源人工智能研究院发起的Triton中文社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

Stable Diffusion 针对50系显卡CUDA 12.9 的cuda error解决办法

笔者新买了RTX 5080，自然是要整AI 绘画的，但新的CUDA版本一直报错，终于在今天解决，于是写一篇文章来分享一下。

Triton中文社区

jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】

2.刷机时需准备ubuntu系统，可以是虚拟机，注意安装SDK Manager刷机时，JetPack版本要选对，JetPack6.0的对应ubuntu22，cuda12版本，对应pytorch支持2.0以上的，如果你要使用pytorch2.0以下版本（pytorch1.12），则需要安装JetPack5.0，对应ubuntu20，cuda11版本，更推荐这个版本。刷机完成后，需要进行cuda环境配