3080深度学习环境配置

一、工作总结

  这周主要采购安装了新的台式主机,时间全花在这上面了;
  安装了WIN10+ubuntu18.04双系统,配置了3080的深度学习环境,第一次安装,过程比较顺利,但是也比较恍惚,没有记录安装过程,先挖个坑,等以后有机会(并不希望)再记录下来;

1.填坑深度学习环境配置

1.1安装显卡驱动

1.1.1禁用nouveau

安装nvidia显卡驱动首先需要禁用nouveau,不然会碰到冲突的问题,导致无法安装nvidia显卡驱动。指令如下

sudo gedit /etc/modprobe.d/blacklist.conf

打开文件,在最后添加如下两行:

blacklist nouveau
options nouveau modeset=0

1.1.2更新系统修改

sudo update-initramfs -u

输入指令后重启系统(一定要重启),确保到位
验证是否禁用,如果没有任何提示说明修改成功

lsmod | grep nouveau

1.1.3下载安装驱动

1)在英伟达的官网上查找你自己电脑的显卡型号然后下载相应的驱动: [https://www.geforce.cn/drivers], 下载后的run文件拷贝至home目录下, 文件为:NVIDIA-Linux-x86_64-xxx.run
2)在ubuntu下按ctrl+alt+f4进入命令行界面,此时需要login:电脑账户名称,password:密码,登录到命令行界面。 有时会出现登录失败,报错incorrect login ,此时可以按下ctrl+alt+F2(F4)等进入,重新login,即可。
3)sudo service lightdm stop //这个是关闭图形界面,必须关闭
4) sudo apt-get remove nvidia-* //卸载系统中存在的驱动,默认有安装的,一定要执行这个
5)sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run //给文件权限
6)sudo ./NVIDIA-Linux-x86_64-xxx.run -no-x-check -no-nouveau-check -no-opengl-files ,其中:
-no-x-check:安装驱动时关闭X服务
-no-nouveau-check:安装驱动时禁用nouveau
-no-opengl-files:只安装驱动文件,不安装OpenGL文件

在安装过程中会出现:
1、he distribution-provided pre-install script failed! Are you sure you want to continue? 选择 yes 继续。
2、Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later? 选择NO继续
3、Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up. 选择 Yes 继续
7)安装成功后,在命令行输入:sudo service lightdm start //重启图形界面, 按Ctrl+Alt+F7返回图形界面
8)nvidia-smi , nvidia-setting//检测是否安装成功

1.2安装CUDA

到CUDA官网选择对应的版本下载,这里安装CUDA11.1
网址[https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1804&target_type=runfilelocal],选择runfile下载

wget https://developer.download.nvidia.com/compute/cuda/11.1.1/local_installers/cuda_11.1.1_455.32.00_linux.run
sudo sh cuda_11.1.1_455.32.00_linux.run
之后会弹出要安装的内容,[x]表示选中 []表示没选 driver前面 选择取消
这里不要安装驱动,因为已经安装最新的驱动了,否则可能会安装旧版本的显卡驱动,导致重复登录的情况
再install回车
(是否同意条款,必须同意才能继续安装)
accept/decline/quit: accept
安装完成之后修改环境变量,首先在终端键入
sudo gedit ~/.bashrc

之后将这三行代码加到文档最后

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.1/lib64$PATH
export PATH=$PATH:/usr/local/cuda-11.1/bin$LD_LIBRARY_PATH
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.1

最后使用命令source ~/.bashrc使它生效

可以使用命令nvcc -V查看安装的版本信息,如果正常弹出说明安装成功

1.3安装cudnn

首先按照需求下载对应的cudnn文件[https://developer.nvidia.com/rdp/cudnn-archive]
解压压缩包

tar -xzvf cudnn-*.tgz

执行安装,其实就是拷贝头文件和库文件并给予权限

sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
安装成功

1.4安装Anaconda

首先到官网下载安装包[https://www.anaconda.com/products/individual]
之后打开终端,cd到安装包的路径下运行.sh文件

bash Anaconda3-*-Linux-x86_64.sh
进入注册信息页面,输入yes
阅读注册信息,然后输入yes;查看文件即将安装的位置,按enter,即可安装
安装完成后,收到加入环境变量的提示信息,输入yes
重启终端,即可使用Anaconda3
可通过代码更改默认终端
sudo gedit ~/.bashrc
export PATH="/home/xupp/anaconda3/bin:$PATH"
source ~/.bashrc

1.5安装pytorch

首先为pytorch创建一个虚拟环境

conda create -n pytorch python=3.8

之后进入该虚拟环境,并在该环境下安装

conda activate pytorch
推出虚拟环境的命令为:
conda deactive pytorch

在pytorch官网选择对应的版本,因为最新版本为11.0,先安装此版本

conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c pytorch

之后安装完成

posted @ 2020-11-15 22:26  dotaball  阅读(840)  评论(0)    收藏  举报