深度学习环境配置

    xiaoxiao2023-10-26  156

    目前服务器内需要安装深度学习环境,以下是环境配置的一些步骤。一定是明确需要安装的配置。

    1.NVIDIA驱动安装

    先进行Nvidia驱动的安装。我是选择.run文件进行安装,需要手动下载。

    1.1查找对应的驱动

    上图是我们所需要的版本,TeslaV100,对应的linux64位,CUDA的版本是10.0(选择10.0的原因是因为主板上对CUDA9.0的驱动不兼容)

    下载完成后传送至服务器即可。

    我们使用Xshell进行远程控制服务器,界面如下

    通过设置如下即可链接

    1.2 安装相应的软件

    在使用.run文件进行安装时,需要配置GCC和make

    否则会出现如下两个错误。

    apt install gcc # 安装 apt install make

    1.3 安装步骤

    卸载原先驱动:

    sudo apt-get remove --purge nvidia*

    禁用nouveau:

    sudo vi /etc/modprobe.d/blacklist.conf

    在最后添加,保存即可

    blacklist nouveau

    之后,执行命令:

    sudo update-initramfs -u

    但是我这个命令执行后是有问题的,具体有没有用就不知道了。

    重启后运行,如果没有输出,则成功(具体是否需要重启可以看看)

    lsmod | grep nouveau

    安装驱动

    给驱动文件赋予权限,并安装

    sudo chmod a+x NVIDIA-Linux-x86_64-410.104.run #赋予权限 sudo ./NVIDIA-Linux-x86_64-375.20.run #安装

    重启后输入命令

    root@ai03:~# nvidia-smi Tue Mar 12 00:40:32 2019       +-----------------------------------------------------------------------------+ | NVIDIA-SMI 410.104     Driver Version: 410.104     CUDA Version: 10.0     | |-------------------------------+----------------------+----------------------+ | GPU Name       Persistence-M| Bus-Id       Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap|         Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| |   0 ***** ****-PCIE... On   | 00000000:3D:00.0 Off |                   0 | | N/A   30C   P0   27W / 250W |     0MiB / *****MiB |     0%     Default | +-------------------------------+----------------------+----------------------+ |   1 ***** ****-PCIE... On   | 00000000:42:00.0 Off |                   0 | | N/A   28C   P0   26W / 250W |     0MiB / *****MiB |     0%     Default || +-------------------------------+----------------------+----------------------+                                                                               +-----------------------------------------------------------------------------+ | Processes:                                                       GPU Memory | | GPU       PID   Type   Process name                             Usage     | |=============================================================================| | No running processes found                                                 | +-----------------------------------------------------------------------------+ ​

    出现安装信息即可

    2.CUDA,Cudnn安装

    在驱动安装完成之后可以进行CUDA的安装。

    2.1 CUDA下载

    根据驱动版本进行选择,

     

    以前下载会出现下载到一半动不了的情况,目前可以直接将链接复制至下载器进行下载

    2.2 安装CUDA

    由于服务器版本的linux系统没有太多的依赖项的问题,同时也没有个人版中的循环登录的情况,安装还蛮顺畅的。最重要的是注意gcc编译器即内核这两个版本的问题。

    禁用Nouveau

    首先还是要像装驱动一样限制Nouveau

    在之前的 /etc/modprobe.d/blacklist.conf文件中最后面加入保存即可。

    options nouveau modeset=0

    再输入下面,即可

    sudo update-initramfs -u

    安装CUDA

    直接sh运行文件即可安装

    sudo sh cuda_10.0.130_410.48_linux.run

    会出现一个很长的说明文档,一直点到结束就好。然后除了不安装CUDA samples外其他都选择yes,最后等待安装完成即可

    设置CUDA路径

    先使用编辑器编辑.bashrc文件,

    vi ~/.bashrc # 编辑

    最后中添加下面的代码

    export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64:$LD_LIBRARY_PATH export CUDA_HOME=/usr/local/cuda-10.0 export PATH=/usr/local/cuda-10.0/bin:$PATH

    之后使用source命令即可。

    source ~/.bashrc

    输入nvcc -V,输出当前信息

    nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2018 NVIDIA Corporation Built on Sat_Aug_25_21:08:01_CDT_2018 Cuda compilation tools, release 10.0, V10.0.130

    2.3 安装cudnn

    将cudnn文件移动到/usr/local下,cd到CUDA安装目录下,然后进行解压命令,完成之后就可以了

    mv cudnn-10.0-linux-x64-v7.4.2.24.tgz /usr/local cd /usr/local sudo tar -xzvf cudnn-10.0-linux-x64-v7.4.2.24.tgz

    2.4 查验指令

    cat /proc/driver/nvidia/version #查看Nvidia驱动版本 nvcc -V #查看CUDA版本 cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 #查看Cudnn版本

    3.Nvidia驱动,CUDA卸载

    3.1 Nvidia驱动卸载

    直接使用当时驱动的安装包进行卸载

    sh ./NVIDIA-Linux-x86_64-384.183.run --uninstall

    还有另一种方式如下,但是我试过没有效果,nvidia-smi后还是有输出的。

    sudo apt-get purge nvidia*

    3.2 CUDA卸载

    明确cuda的安装路径,我的是/usr/local/cuda-10.0。之后用命令卸载

    sudo /usr/local/cuda-10.0/bin/unistall_cuda-10.0.pl

    等待完成后,手动删除残余目录/usr/local/cuda-10.0

    4 GPU带宽检测

    目前安装好GPU后可以使用带宽检测测试安装性能

    cd到CUDA的带宽测试目录下

    cd /usr/local/cuda/samples/1_Utilities/bandwidthTest/ make ./bandwidthTest

    在测试前出现一个Makefile:xxx: recipe for target xxx failed的错误

    后来发现问题在g++: No such file or directory

    直接安装G++即可完事

    apt install g++

     

    最新回复(0)