前期准备:

升级gcc编译环境:

查看gcc版本:

gcc -v        (centos默认好像是4.8.5版本)

升级gcc:

yum install centos-release-scl
yum install devtoolset-9-gcc*

备份旧链接创建新链接:

mv /usr/bin/gcc /usr/bin/gcc-4.8.5
mv /usr/bin/g++ /usr/bin/g++-4.8.5
ln -s /opt/rh/devtoolset-9/root/usr/bin/gcc /usr/bin/gcc
ln -s /opt/rh/devtoolset-9/root/usr/bin/g++ /usr/bin/g++
mv /usr/bin/cc /usr/bin/cc-4.8.5
mv /usr/bin/c++ /usr/bin/c++-4.8.5
ln -s /usr/bin/gcc /usr/bin/cc
ln -s /usr/bin/g++ /usr/bin/c++

安装完再看一下版本,打印:

安装与内核版本一致的kernel-devel:

查看内核版本:

uname -a

yum list | grep kernel-

如果不一致,则安装与内核版本一致的kernel-devel:

yum install "kernel-devel-uname-r == $(uname -r)"

安装完可以看到

(通常会安装在/usr/src/kernels里,里面可能有多个,后面安装显卡驱动的时候如果找不到可以指定)

重启系统:reboot

屏蔽系统自带的nouveau:

查看是否屏蔽:

lsmod | grep nouveau

如果没有输出则说明已经屏蔽,否则需要手动屏蔽;

编辑dist-blacklist.conf文件:

vi /lib/modprobe.d/dist-blacklist.conf

用#注释掉nvidiafb:#blacklist nvidiafb

添加两条:

blacklist nouveau
options nouveau modeset=0

(如果没有该文件可以直接新建一个/etc/modprobe.d/blacklist-nouveau.conf,添加这两条)

重建initramfs image:

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

dracut /boot/initramfs-$(uname -r).img $(uname -r)

重启系统 reboot

如果使用的界面centos,安装驱动时要切到使用文本模式:

查看使用模式:

systemctl get-default

关闭GUI,使用文本模式:

systemctl set-default multi-user.target

(等安装完驱动可以systemctl set-default graphical.target切回GUI)

重启系统 reboot

安装NVIDIA显卡驱动:

查看系统显卡:

lspci | grep -E "NVIDIA|VGA"

lshw -numeric -C display

查看是否安装驱动:nvidia-smi

去官网下载驱动:官方驱动 | NVIDIA

选择自己的显卡驱动:

可以查看是否支持自己的显卡,然后下载:

为驱动添加执行权限:chmod a+x NVIDIA-Linux-x86_64-550.54.15.run

安装驱动:

./NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files

(不添加执行权限也可以sh NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files)

如果找不到之前安装的内核可以使用参数指定:--kernel-source-path

我的/usr/src/kernels下有两个

指定参数:./NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files --kernel-source-path=/usr/src/kernels/3.10.0-1160.118.1.el7.x86_64

(提示安装32位的可以自己选择安不安装)

安装完查看结果:nvidia-smi

(卸载驱动使用:./NVIDIA-Linux-x86_64-550.54.15.run --uninstall)

安装合适版本的cuda:

驱动版本和cuda版本对应关系:CUDA 12.5 Release Notes (nvidia.com)

下载对应版本的cuda:CUDA Toolkit Archive | NVIDIA Developer

选择自己的系统版本,可以下载rpm或者runfile的,看自己喜好选一个安装方法,选完系统下面自动有安装方法,照着执行就可:

还是run简单些,下载好run文件安装:

./cuda_12.4.1_550.54.15_linux.run

需要等待一会,然后显示,输入accept,然后选择install,安装;

等待安装结果,输出像下面这样:

===========
= Summary =
===========

Driver:   Installed
Toolkit:  Installed in /usr/local/cuda-12.4/

Please make sure that
 -   PATH includes /usr/local/cuda-12.4/bin
 -   LD_LIBRARY_PATH includes /usr/local/cuda-12.4/lib64, or, add /usr/local/cuda-12.4/lib64 to /etc/ld.so.conf and run ldconfig as root

To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-12.4/bin
To uninstall the NVIDIA Driver, run nvidia-uninstall
Logfile is /var/log/cuda-installer.log

通常是安装在/usr/local/cuda-12.4下,记下安装目录配置环境变量:

编辑环境变量:vi /etc/profile

添加四行:

PATH=$PATH:/usr/local/cuda-12.4/bin/
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.4/lib64
export PATH
export LD_LIBRARY_PATH

使配置生效:source /etc/profile

查看cuda信息:

nvcc --version

(卸载cuda,run安装的在/usr/local/cuda/bin目录下有个uninstall自带卸载程序)

安装cuDNN加速:

官网选择合适版本下载:cuDNN Archive | NVIDIA Developer

(需要申请个NVIDIA的账号下载)

下载好后,解压:tar -Jxvf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz

将解压后的include文件夹里全部文件复制到cuda目录的include里,将lib文件夹里全部文件复制到cuda的lib64里:

cp cudnn目录/include/* /usr/local/cuda-版本号/include
cp cudnn目录/lib/* /usr/local/cuda-版本号/lib64

Logo

欢迎来到由智源人工智能研究院发起的Triton中文社区,这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂,为推动人工智能技术的普及与深化应用贡献力量。

更多推荐