在Centos上为Tesla T4显卡安装NVIDIA驱动以及cuda和cudnn
centos安装NVIDIA驱动、cuda、cudnn;
前期准备:
升级gcc编译环境:
查看gcc版本:
gcc -v (centos默认好像是4.8.5版本)
升级gcc:
yum install centos-release-scl
yum install devtoolset-9-gcc*
备份旧链接创建新链接:
mv /usr/bin/gcc /usr/bin/gcc-4.8.5
mv /usr/bin/g++ /usr/bin/g++-4.8.5
ln -s /opt/rh/devtoolset-9/root/usr/bin/gcc /usr/bin/gcc
ln -s /opt/rh/devtoolset-9/root/usr/bin/g++ /usr/bin/g++
mv /usr/bin/cc /usr/bin/cc-4.8.5
mv /usr/bin/c++ /usr/bin/c++-4.8.5
ln -s /usr/bin/gcc /usr/bin/cc
ln -s /usr/bin/g++ /usr/bin/c++
安装完再看一下版本,打印:
安装与内核版本一致的kernel-devel:
查看内核版本:
uname -a
yum list | grep kernel-
如果不一致,则安装与内核版本一致的kernel-devel:
yum install "kernel-devel-uname-r == $(uname -r)"
安装完可以看到
(通常会安装在/usr/src/kernels里,里面可能有多个,后面安装显卡驱动的时候如果找不到可以指定)
重启系统:reboot
屏蔽系统自带的nouveau:
查看是否屏蔽:
lsmod | grep nouveau
如果没有输出则说明已经屏蔽,否则需要手动屏蔽;
编辑dist-blacklist.conf文件:
vi /lib/modprobe.d/dist-blacklist.conf
用#注释掉nvidiafb:#blacklist nvidiafb
添加两条:
blacklist nouveau
options nouveau modeset=0
(如果没有该文件可以直接新建一个/etc/modprobe.d/blacklist-nouveau.conf,添加这两条)
重建initramfs image:
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)
重启系统 reboot
如果使用的界面centos,安装驱动时要切到使用文本模式:
查看使用模式:
systemctl get-default
关闭GUI,使用文本模式:
systemctl set-default multi-user.target
(等安装完驱动可以systemctl set-default graphical.target切回GUI)
重启系统 reboot
安装NVIDIA显卡驱动:
查看系统显卡:
lspci | grep -E "NVIDIA|VGA"
lshw -numeric -C display
查看是否安装驱动:nvidia-smi
去官网下载驱动:官方驱动 | NVIDIA
选择自己的显卡驱动:
可以查看是否支持自己的显卡,然后下载:
为驱动添加执行权限:chmod a+x NVIDIA-Linux-x86_64-550.54.15.run
安装驱动:
./NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files
(不添加执行权限也可以sh NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files)
如果找不到之前安装的内核可以使用参数指定:--kernel-source-path
我的/usr/src/kernels下有两个
指定参数:./NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files --kernel-source-path=/usr/src/kernels/3.10.0-1160.118.1.el7.x86_64
(提示安装32位的可以自己选择安不安装)
安装完查看结果:nvidia-smi
(卸载驱动使用:./NVIDIA-Linux-x86_64-550.54.15.run --uninstall)
安装合适版本的cuda:
驱动版本和cuda版本对应关系:CUDA 12.5 Release Notes (nvidia.com)
下载对应版本的cuda:CUDA Toolkit Archive | NVIDIA Developer
选择自己的系统版本,可以下载rpm或者runfile的,看自己喜好选一个安装方法,选完系统下面自动有安装方法,照着执行就可:
还是run简单些,下载好run文件安装:
./cuda_12.4.1_550.54.15_linux.run
需要等待一会,然后显示,输入accept,然后选择install,安装;
等待安装结果,输出像下面这样:
===========
= Summary =
===========
Driver: Installed
Toolkit: Installed in /usr/local/cuda-12.4/
Please make sure that
- PATH includes /usr/local/cuda-12.4/bin
- LD_LIBRARY_PATH includes /usr/local/cuda-12.4/lib64, or, add /usr/local/cuda-12.4/lib64 to /etc/ld.so.conf and run ldconfig as root
To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-12.4/bin
To uninstall the NVIDIA Driver, run nvidia-uninstall
Logfile is /var/log/cuda-installer.log
通常是安装在/usr/local/cuda-12.4下,记下安装目录配置环境变量:
编辑环境变量:vi /etc/profile
添加四行:
PATH=$PATH:/usr/local/cuda-12.4/bin/
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.4/lib64
export PATH
export LD_LIBRARY_PATH
使配置生效:source /etc/profile
查看cuda信息:
nvcc --version
(卸载cuda,run安装的在/usr/local/cuda/bin目录下有个uninstall自带卸载程序)
安装cuDNN加速:
官网选择合适版本下载:cuDNN Archive | NVIDIA Developer
(需要申请个NVIDIA的账号下载)
下载好后,解压:tar -Jxvf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz
将解压后的include文件夹里全部文件复制到cuda目录的include里,将lib文件夹里全部文件复制到cuda的lib64里:
cp cudnn目录/include/* /usr/local/cuda-版本号/include
cp cudnn目录/lib/* /usr/local/cuda-版本号/lib64
欢迎来到由智源人工智能研究院发起的Triton中文社区,这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂,为推动人工智能技术的普及与深化应用贡献力量。
更多推荐
所有评论(0)