CentOS7.9安装Nvidia显卡驱动

 1、  安装依赖
#安装依赖,确保kernel-devel与内核版本一致
yum install pciutils  libffi-devel  xz-devel  python-backports-lzma yum-utils git -y
#查看内核版本、源码包版本,确保版本一致
wget https://vault.centos.org/7.9.2009/os/x86_64/Packages/kernel-devel-3.10.0-1160.el7.x86_64.rpm
rpm -ivh kernel-devel-3.10.0-1160.el7.x86_64.rpm
ls /boot | grep vmlinu 或 uname -r
rpm -aq | grep kernel-devel

2、屏蔽系统自带的nouveau

vim /lib/modprobe.d/dist-blacklist.conf
#注释掉nvidiafb
#blacklist nvidiafb
#文件末尾添加如下内容,然后保存
blacklist nouveau
options nouveau modeset=0

3、重建initramfs image

#删除
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
#重建
dracut /boot/initramfs-$(uname -r).img $(uname -r)

4、修改运行级别为文本模式

systemctl set-default multi-user.target
reboot

5、查看nouveau是否已禁用

lsmod | grep nouveau
#如果没有显示相关内容,说明已禁用成功

6、  选择合适版本的显卡驱动

0)查看本机显卡型号:

lspci |grep -i  nvidia

显卡型号为Tesla T4

1)首先查看显卡的算力兼容性,参考:https://developer.nvidia.com/cuda-gpus?spm=a2c6h.12873639.article-detail.4.34ef3ddcrHIq90

Tesla T4显卡的算力兼容性是7.5

2)选择合适的CUDA版本,参考:

https://docs.nvidia.com/datacenter/tesla/drivers/index.html?spm=a2c6h.12873639.article-detail.5.34ef3ddcrHIq90#cuda-arch-matrix

CUDA Capability=7.5的显卡的架构为Turing,可以支持的最低版本CUDA为10.0,最新版本的CUDA都可以支持

3)vLLM不同版本,对CUDA版本要求也不同,需要根据所需要安装的vLLM版本选择合适版本的CUDA,故需要先确认需要安装哪个版本vLLM,参考:

https://docs.vllm.ai/en/latest/getting_started/installation/gpu/index.html

vLLM最新版本支持CUDA12.1,故CUDA也选择12.1版本

vLLM可以支持CUDA 12.1,Python 3.10,Tesla T4

4)vLLM依赖PyTorch,需要根据选定的CUDA版本选择合适版本的PyTorch,参考:

https://pytorch.org/get-started/previous-versions/

PyTorch可以支持CUDA12.1,故确认选定CUDA12.1版本

注:访问 https://pytorch.org/#community-module 下载最新版本的Torch

 

 

5)根据显卡型号、CUDA版本选择合适的显卡驱动,参考:

下载 NVIDIA 官方驱动 | NVIDIA

此处选择的CUDA版本要求>=12.1,由于没有12.1,在此选择12.2版本,然后下载显卡驱动到本地

cd /softwares
wget https://us.download.nvidia.com/tesla/535.230.02/NVIDIA-Linux-x86_64-535.230.02.run

6)下载CUDA Toolkit,参考:

https://developer.nvidia.com/cuda-toolkit-archive

选择合适的CUDA Toolkit版本

选择合适的OS版本及安装类型(runfile),下载到本地

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run

7、  安装显卡驱动

cd /softwares
chmod +x NVIDIA-Linux-x86_64-535.230.02.run
#注意选择kernel-source
./NVIDIA-Linux-x86_64-535.230.02.run  --kernel-source-path=/usr/src/kernels/3.10.0-1160.el7.x86_64/ -k $(uname -r)   
#安装完成后运行命令 nvidia-smi 验证
#卸载网卡驱动:
#./NVIDIA-Linux-x86_64-535.54.03.run  --uninstall
 

出现如图所示信息,确认显卡驱动安装成功。查看显卡驱动版本,CUDA driver版本为右上角(此处应该是12.2)

8、  安装CUDA Toolkit

chmod +x cuda_12.1.0_530.30.02_linux.run
./cuda_12.1.0_530.30.02_linux.run
#如下图所示:
 

选中“Drivers”,会重新覆盖安装显卡驱动,如显卡驱动已安装好,不需要选中

不要选中“Kernel Objects”,否则会提示报错

安装完成后如下图所示:

运行命令“nvcc -V”,查看cuda runtime版本,该版本号要<= nvidia-smi右上角显示的cuda版本:

再次运行nvidia-smi命令,可以看到右上角的CUDA版本变成了12.1。如果安装cuda的时候未选择“install drvier”,则右上角的CUDA版本还是12.2

配置cuda环境变量:

vim ~/.bash_profile
#添加如下内容:
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda
#保存后运行如下命令:
source ~/.bash_profile

如果需要删除cuda,则直接删除所在目录就可以了

 

注:CUDA Driver版本(nvidia-smi命令查看)需要大于等于CUDA runtime版本(nvcc --version命令查看)

CUDA runtime版本需要大于等于CUDA libraries版本(Pytorch附带下载的CUDA toolkit版本)

 

CUDA说明:

nvidia-smi属于driver API

nvcc属于runtime API

nvidia-smi #查看CUDA Driver版本,Driver版本可以兼容老版本

nvcc -V #查看CUDA Runtime版本

CUDA Driver版本 要求>= CUDA Runtime版本

如果CUDA版本(nvcc -V)为11.7,那PyTorch只能使用11.7及以下版本

nvcc是CUDA编译器,只知道runtime 版本,甚至不知道是否安装了GPU driver。

用于支持driver API的必要文件(如libcuda.so)是由GPU driver installer安装的。

用于支持runtime API的必要文件(如libcudart.so以及nvcc)是由CUDA Toolkit installer安装的。

 

 

 

 

 

posted on 2025-04-23 16:37  momingliu11  阅读(1081)  评论(0)    收藏  举报