CentOS7.9安装Nvidia显卡驱动

1、安装依赖

#安装依赖，确保kernel-devel与内核版本一致
yum install pciutils  libffi-devel  xz-devel  python-backports-lzma yum-utils git -y
#查看内核版本、源码包版本，确保版本一致
wget https://vault.centos.org/7.9.2009/os/x86_64/Packages/kernel-devel-3.10.0-1160.el7.x86_64.rpm
rpm -ivh kernel-devel-3.10.0-1160.el7.x86_64.rpm
ls /boot | grep vmlinu 或 uname -r
rpm -aq | grep kernel-devel

2、屏蔽系统自带的nouveau

vim /lib/modprobe.d/dist-blacklist.conf
#注释掉nvidiafb
#blacklist nvidiafb
#文件末尾添加如下内容，然后保存
blacklist nouveau
options nouveau modeset=0

3、重建initramfs image

#删除
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
#重建
dracut /boot/initramfs-$(uname -r).img $(uname -r)

4、修改运行级别为文本模式

systemctl set-default multi-user.target
reboot

5、查看nouveau是否已禁用

lsmod | grep nouveau
#如果没有显示相关内容，说明已禁用成功

6、选择合适版本的显卡驱动

0）查看本机显卡型号：

lspci |grep -i  nvidia

显卡型号为Tesla T4

1）首先查看显卡的算力兼容性，参考：https://developer.nvidia.com/cuda-gpus?spm=a2c6h.12873639.article-detail.4.34ef3ddcrHIq90

Tesla T4显卡的算力兼容性是7.5

2）选择合适的CUDA版本，参考：

https://docs.nvidia.com/datacenter/tesla/drivers/index.html?spm=a2c6h.12873639.article-detail.5.34ef3ddcrHIq90#cuda-arch-matrix

CUDA Capability=7.5的显卡的架构为Turing，可以支持的最低版本CUDA为10.0，最新版本的CUDA都可以支持

3）vLLM不同版本，对CUDA版本要求也不同，需要根据所需要安装的vLLM版本选择合适版本的CUDA，故需要先确认需要安装哪个版本vLLM，参考：

https://docs.vllm.ai/en/latest/getting_started/installation/gpu/index.html

vLLM最新版本支持CUDA12.1，故CUDA也选择12.1版本

vLLM可以支持CUDA 12.1，Python 3.10，Tesla T4

4）vLLM依赖PyTorch，需要根据选定的CUDA版本选择合适版本的PyTorch，参考：

https://pytorch.org/get-started/previous-versions/

PyTorch可以支持CUDA12.1，故确认选定CUDA12.1版本

注：访问 https://pytorch.org/#community-module 下载最新版本的Torch

5）根据显卡型号、CUDA版本选择合适的显卡驱动，参考：

下载 NVIDIA 官方驱动 | NVIDIA

此处选择的CUDA版本要求>=12.1,由于没有12.1，在此选择12.2版本，然后下载显卡驱动到本地

cd /softwares
wget https://us.download.nvidia.com/tesla/535.230.02/NVIDIA-Linux-x86_64-535.230.02.run

6）下载CUDA Toolkit，参考：

https://developer.nvidia.com/cuda-toolkit-archive

选择合适的CUDA Toolkit版本

选择合适的OS版本及安装类型（runfile），下载到本地

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run

7、安装显卡驱动

cd /softwares
chmod +x NVIDIA-Linux-x86_64-535.230.02.run
#注意选择kernel-source
./NVIDIA-Linux-x86_64-535.230.02.run  --kernel-source-path=/usr/src/kernels/3.10.0-1160.el7.x86_64/ -k $(uname -r)   
#安装完成后运行命令 nvidia-smi 验证
#卸载网卡驱动：
#./NVIDIA-Linux-x86_64-535.54.03.run  --uninstall

出现如图所示信息，确认显卡驱动安装成功。查看显卡驱动版本，CUDA driver版本为右上角（此处应该是12.2）

8、安装CUDA Toolkit

chmod +x cuda_12.1.0_530.30.02_linux.run
./cuda_12.1.0_530.30.02_linux.run
#如下图所示：

选中“Drivers”，会重新覆盖安装显卡驱动，如显卡驱动已安装好，不需要选中

不要选中“Kernel Objects”，否则会提示报错

安装完成后如下图所示：

运行命令“nvcc -V”，查看cuda runtime版本，该版本号要<= nvidia-smi右上角显示的cuda版本：

再次运行nvidia-smi命令，可以看到右上角的CUDA版本变成了12.1。如果安装cuda的时候未选择“install drvier”，则右上角的CUDA版本还是12.2

配置cuda环境变量：

vim ~/.bash_profile
#添加如下内容：
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda
#保存后运行如下命令：
source ~/.bash_profile

如果需要删除cuda，则直接删除所在目录就可以了

注：CUDA Driver版本(nvidia-smi命令查看)需要大于等于CUDA runtime版本(nvcc --version命令查看)

CUDA runtime版本需要大于等于CUDA libraries版本(Pytorch附带下载的CUDA toolkit版本)

CUDA说明：

nvidia-smi属于driver API

nvcc属于runtime API

nvidia-smi #查看CUDA Driver版本，Driver版本可以兼容老版本

nvcc -V #查看CUDA Runtime版本

CUDA Driver版本要求>= CUDA Runtime版本

如果CUDA版本（nvcc -V）为11.7，那PyTorch只能使用11.7及以下版本

nvcc是CUDA编译器，只知道runtime 版本，甚至不知道是否安装了GPU driver。

用于支持driver API的必要文件(如libcuda.so）是由GPU driver installer安装的。

用于支持runtime API的必要文件(如libcudart.so以及nvcc)是由CUDA Toolkit installer安装的。

posted on 2025-04-23 16:37 momingliu11 阅读(1081) 评论(0) 收藏举报