ubuntu18.04+驱动450+CUDA10.0+cudnn7.6.5+xrdp重新装系统配置环境以及实现服务器实现远程访问(亲测,血泪史)

问题描述

最近服务器一直出现nvidia-smi 找不到命令 而且动不动服务器跟休眠一样,远程连接不了,多次装配无果后,决定重装系统,因此特此记录下自己两天的血泪史,(机房真的好冷,冻死了------)

第一步:装系统

  1. 我选择的系统是ubuntu18.04,可以去官网去下载(https://ubuntu.com/download/alternative-downloads)自己去选择,我选择的是18.04桌面版的。
  2. u盘做系统,这里参考(https://blog.csdn.net/flyfrommath/article/details/54406413)
  3. 安装系统,开机的时候按F11+DEL(不同电脑可能不一样)进入BIOS,用你插的U盘进行启动,就会进入安装Ubuntu界面,具体选择啥,你可以直接百度,也可以按下面图(图像来源于https://www.ywnz.com/linuxaz/2588.html安装结束了,实在找弄不到图)
    在这里插入图片描述
    在这里插入图片描述

选择勾的那个
在这里插入图片描述
在下一页的安装类型里面选择删掉之前系统,重新安装新的,就可以抹掉之前的系统,保留之前的硬盘里面的数据。然后继续继续就好

第二步:修网络

我在安装的时候遇到了一个问题,我在终端ping www.baidu.com出现"ping: www.baidu.com: 未知的名称或服务"的问题,临时解决办法是

sudo gedit  /etc/resolv.conf

在文件后面添加

  nameserver 8.8.8.8                                                          
  nameserver 8.8.4.4

即可解决,但是这有个弊端,就是重启后就要重新配置,但是是服务器,一般也不重启,所以我就暂时这么解决了

第三步:换源

这里要说下,网上一些人总说要修改文件,当然,那种方法可以,但是不够直观,且有错误风险,这里推荐直接界面操作即可,具体参考(https://blog.csdn.net/weixin_43798960/article/details/108522630)

第四步:更新各种包,然后下载一些基础的东西

按下面顺序输入:

sudo apt-get update
sudo apt-get upgrade
sudo apt-get install gcc g++ cmake git vim
sudo apt-get update
sudo apt-get upgrade
sudo apt-get update
sudo apt-get install build-essential

若出现“sudo apt-get install build-essential 找不到软件包”的问题,个人推荐(https://blog.csdn.net/weixin_44321964/article/details/106086318)这个很有效。按这个操作时我的不重启也行,但是看自己的需求。

第五步: 装驱动

这里其实我有些存疑,虽然最后我的CUDA也开的起来,就是有一个问题,我现在装了驱动后,服务器直接连的调试主机nvidia-smi 可以正常显示 但是远程连接的显示不了 说没有建立通信 所以调试主机全部弄完后 后面我又在远程端装了一个驱动,可以正常使用。虽然不知道啥原理,但是能用就行,要啥自行车

  1. 去官网找到显卡对应的驱动(https://www.nvidia.com/Download/Find.aspx) 下面是我选的,因为装系统的时候选的中文,这里也选的中文
    在这里插入图片描述
    下面可以看到有很多版本可以接近,但是我还是不想安装太高版本,避免什么依赖库的影响,所以装了个450版本,这个最高可支持CUDA11.0,所以基本够用
    在这里插入图片描述
  2. 开始装驱动,装驱动也是一个技术活,这里也是推荐一个(https://blog.csdn.net/sinat_23853639/article/details/81771692)这个写的比较好,按里面去装就好。装好后执行nvidia-smi就可以看到自己的GPU

第六步: 装CUDA和Cudnn

我安装的是CUDA10.0和Cudnn7.6.5,具体的安装教程可以看我的这篇博客,这样建立,以后还可以支持多版本CUDA替换。(https://yuchuang.blog.csdn.net/article/details/119735565)
按这个教程安装第一个CUDA的话 第6步跳过即可。

第七步: 安装xrdp

我发现别人说18.04就有些不支持xrdp,很容易安装后远程连接的时候出现蓝屏display 10和黑屏display 11的错误,所以历经千辛万苦终于找到了一个可以查看(https://javywang.blog.csdn.net/article/details/89517333)或者按下面的步骤一个个执行:

sudo apt autoremove xrdp  ##卸载之前的xrdp  如果没装就跳过
sudo add-apt-repository ppa:martinx/xrdp-hwe-18.04
sudo apt-get update
sudo apt-get install xrdp xorg
sudo add-apt-repository ppa:martinx/xrdp-hwe-18.04 -y
sudo apt-get update
cd ~
mkdir Downloads  ##引文我装的是中文的,没有这个文件夹 创建一个
wget http://www.c-nergy.be/downloads/Std-Xrdp-Install-0.5.1.zip
unzip Std-Xrdp-Install-0.5.1.zip
chmod +x Std-Xrdp-Install-0.5.1.sh
./Std-Xrdp-Install-0.5.1.sh    ##若出现失败,一般是网的问题,多次执行

sudo adduser xrdp ssl-cert
sudo reboot

重启后远程可以连上了 选择Xorg 输入账号密码即可。

第八步: 对于远程用户输入nvidia-smi出现“无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver”问题

参考(https://blog.csdn.net/hangzuxi8764/article/details/86572093)
或者直接执行下面

sudo apt-get install dkms
sudo dkms install -m nvidia -v 450.119.03 ##具体版本号,你可以根据你之前装的那个查看下,一定要是你的显卡支持的就好

第九步:解决非系统的硬盘挂载问题

在前面8步弄好后,在使用的过程中发现了两个4T的硬盘没挂载上,所以访问不了之前的文件,为了解决方法,又是一大波信息搜索,终于被我发现了一个解决方案,实测有效。其可以实现开机自动挂载硬盘 真想(https://blog.csdn.net/qq_35404655/article/details/105397564)

第十步:实现文件夹软连接

因为服务器是给大家一起使用的,每个人的都有一个放数据的文件,如何快速打开它就可以事半功倍,下面是就是软连接方法

ln -s /open/wenjian/cc ~/桌面/                  ###这个就可以把/open/wenjian/cc下的所有文件  以cc文件夹名在你的另一个目录下(我的是桌面,你可以随意更改)创建一个快速链接

第十一步:解决硬盘挂载后“创建不了文件,各用户将文件写入不了硬盘”问题

在使用的过程中,又遇到了一个问题,就是发现对于挂载的硬盘写入不了文件,创建的每个用户都不行,包括root,解决方案如下

chmod   o+w 文件目录名   #o+w代表给其他组的用户增加写的权限  文件目录名就是你挂载的硬盘,例如我的 /open1

第十二步:ubuntu18.04新增用户,实现多用户远程访问

  1. 以root账号登录
  2. `输入下面命令
useradd -r -m -s /bin/bash docker   ##docker为所建用户名

参数说明:
  -r:建立系统账号

  -m:自动建立用户的登入目录

  -s:指定用户登入后所使用的shell
  1. 修改密码,输入下面命令 会让你重新输入创建 用户的新密码,然后就成功了
passwd docker   ##docker为所建用户名
  1. 创建管理员权限
sudo  chmod +w /etc/sudoers
sudo gedit /etc/sudoers

在打开的文件里面,对应进行修改即可 "spark"为你建的用户名即可
在这里插入图片描述

  1. 删掉用户(运用userdel命令删除指定的用户,注意要加sudo权限指令)
sudo userdel spark  ##spark为用户名

5.1 判断是否真正删除了呢?下面运用cat命令打开passwd文件

cat /etc/passwd

5.2 如果想把用户的文件夹也删除,需要带上r参数

sudo userdel -r spark

真是不容易啊

Logo

欢迎来到由智源人工智能研究院发起的Triton中文社区,这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂,为推动人工智能技术的普及与深化应用贡献力量。

更多推荐