centos7安装显卡驱动+CUDA+CUDNN

一、检查机器设备安装的显卡型号

使用nvidia-detect -v命令查看当前机器显卡

Probing for supported NVIDIA devices...
[10de:1b38] NVIDIA Corporation GP102GL [Tesla P40]
This device requires the current 550.54.14 NVIDIA driver kmod-nvidia
[1a03:2000] ASPEED Technology, Inc. ASPEED Graphics Family

注意550.54.14NVIDIA driver ,下载对应版本

如果提示没有nvidia-detect命令,可以使用yum install nvidia-detect进行安装

如果提示没有nvidia-detect包,可以执行yum remove elrepo-release-7.0-6.el7.elrepo.noarch,在执行rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm,解决elrepo-release版本问题,然后使用yum命令进行安装

二、安装前一系列准备工作

更新系统yum -y update

安装yum -y groupinstall "GNOME Desktop" "Development Tools"

yum -y install kernel-devel 

yum -y install epel-release

yum -y install dkms

禁用nouveau

编辑/etc/modprobe.d/blacklist.conf文件加入以下内容

blacklist nouveau

注释掉blacklist nvidiafb(如果存在)

执行lsmod | grep nouveau

如果没有输出,则禁用成功

不成功执行下面方法:

vim /lib/modprobe.d/dist-blacklist.conf

#blacklist nvidiafb

blacklist nouveau
options nouveau modeset=0

sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

sudo dracut -v /boot/initramfs-$(uname -r).img $(uname -r)rreboot

升级gcc

安装sudo yum install centos-release-scl

sudo yum install devtoolset-9-gcc*

scl enable  devtoolset-9 bash

三、安装显卡驱动

将下载好的包(NVIDIA-Linux-x86_64-440.95.01.run)上传到机器

执行chmod a+x NVIDIA-Linux-x86_64-440.95.01.run

./NVIDIA-Linux-x86_64-440.95.01.run

  选择No继续,

 报错了,需要执行./NVIDIA-Linux-x86_64-440.95.01.run --kernel-source-path=/usr/src/kernels/3.10.0-1160.108.1.el7.x86_64 -k $(uname -r)

这个kernel-source-path路径具体看自己机器的进行修改,然后选NO继续就开始安装了

 

 选择No继续

 选择Install and overwrite existing files继续完成安装

如果在安装过程中报错ERROR: Unable to load the 'nvidia-drm' kernel module

一般是在系统update后没有重启,原来的kernel-devel版本和新装的版本不一致导致的

例如:

存在两个版本,需要删除旧的rpm -e 3.10.0-957.el7.x86_64(我在操作中因为是yum  install update -y直接更新的,所以旧版本因为没重启才存在,重启机器后,不在存在冲突问题)

执行nvidia-smi检查安装是否成功

 四、CUDA安装

根据nvidia-smi命令,我们确认需要安装CUDA10.2版本

 

下载对应版本

wget http://developer.download.nvidia.com/compute/cuda/10.2/Prod//local_installers/cuda_10.2.89_440.33.01_linux.run

 将下载的cuda_10.2.89_440.33.01_linux.run文件上传到机器

使用root用户执行chmod +x cuda_10.2.89_440.33.01_linux.run # 下载的CUDA 文件
运行sh cuda_10.2.89_440.33.01_linux.run

# 按着提示来装
Do you accept the previously read EULA?
accept/decline/quit: accept

 

 因为已经安装了驱动,所以把驱动勾掉,选install

 因为之前装了CUDA10,所以选择更新

 

安装完以后要修改环境变量,如下:

vim /etc/profile,添加如下内容

 执行source /etc/profile

执行nvcc -v检查安装版本

  五、CUDNN安装

下载CUDNN:https://developer.download.nvidia.cn/compute/cudnn/redist/cudnn/linux-x86_64/

cudnn-linux-x86_64-8.4.0.27_cuda10.2-archive.tar.xz

上传解压

tar -xvf cudnn-linux-x86_64-8.4.0.27_cuda10.2-archive.tar.xz

进入cudnn-linux-x86_64-8.4.0.27_cuda10.2-archive目录

执行

cp include/cudnn*.h /usr/local/cuda-10.2/include/

cp lib/libcudnn* /usr/local/cuda-10.2/lib64/

chmod a+r /usr/local/cuda-10.2/include/cudnn*.h

chmod a+r /usr/local/cuda-10.2/lib64/libcudnn*

cudnn 8版本以上的使用下面命令验证
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

 

posted @ 2024-03-14 15:30  运维dog  阅读(4075)  评论(0)    收藏  举报