CentOS7.9安装Nvidia显卡驱动
#安装依赖,确保kernel-devel与内核版本一致 yum install pciutils libffi-devel xz-devel python-backports-lzma yum-utils git -y #查看内核版本、源码包版本,确保版本一致 wget https://vault.centos.org/7.9.2009/os/x86_64/Packages/kernel-devel-3.10.0-1160.el7.x86_64.rpm rpm -ivh kernel-devel-3.10.0-1160.el7.x86_64.rpm ls /boot | grep vmlinu 或 uname -r rpm -aq | grep kernel-devel

2、屏蔽系统自带的nouveau
vim /lib/modprobe.d/dist-blacklist.conf #注释掉nvidiafb #blacklist nvidiafb #文件末尾添加如下内容,然后保存 blacklist nouveau options nouveau modeset=0
3、重建initramfs image
#删除 mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak #重建 dracut /boot/initramfs-$(uname -r).img $(uname -r)
4、修改运行级别为文本模式
systemctl set-default multi-user.target
reboot
5、查看nouveau是否已禁用
lsmod | grep nouveau #如果没有显示相关内容,说明已禁用成功
6、 选择合适版本的显卡驱动
0)查看本机显卡型号:
lspci |grep -i nvidia

显卡型号为Tesla T4
1)首先查看显卡的算力兼容性,参考:https://developer.nvidia.com/cuda-gpus?spm=a2c6h.12873639.article-detail.4.34ef3ddcrHIq90

Tesla T4显卡的算力兼容性是7.5
2)选择合适的CUDA版本,参考:
https://docs.nvidia.com/datacenter/tesla/drivers/index.html?spm=a2c6h.12873639.article-detail.5.34ef3ddcrHIq90#cuda-arch-matrix

CUDA Capability=7.5的显卡的架构为Turing,可以支持的最低版本CUDA为10.0,最新版本的CUDA都可以支持
3)vLLM不同版本,对CUDA版本要求也不同,需要根据所需要安装的vLLM版本选择合适版本的CUDA,故需要先确认需要安装哪个版本vLLM,参考:
https://docs.vllm.ai/en/latest/getting_started/installation/gpu/index.html
vLLM最新版本支持CUDA12.1,故CUDA也选择12.1版本

vLLM可以支持CUDA 12.1,Python 3.10,Tesla T4
4)vLLM依赖PyTorch,需要根据选定的CUDA版本选择合适版本的PyTorch,参考:
https://pytorch.org/get-started/previous-versions/

PyTorch可以支持CUDA12.1,故确认选定CUDA12.1版本
注:访问 https://pytorch.org/#community-module 下载最新版本的Torch

5)根据显卡型号、CUDA版本选择合适的显卡驱动,参考:

此处选择的CUDA版本要求>=12.1,由于没有12.1,在此选择12.2版本,然后下载显卡驱动到本地

cd /softwares wget https://us.download.nvidia.com/tesla/535.230.02/NVIDIA-Linux-x86_64-535.230.02.run
6)下载CUDA Toolkit,参考:
https://developer.nvidia.com/cuda-toolkit-archive

选择合适的CUDA Toolkit版本

选择合适的OS版本及安装类型(runfile),下载到本地
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
7、 安装显卡驱动
cd /softwares chmod +x NVIDIA-Linux-x86_64-535.230.02.run #注意选择kernel-source ./NVIDIA-Linux-x86_64-535.230.02.run --kernel-source-path=/usr/src/kernels/3.10.0-1160.el7.x86_64/ -k $(uname -r) #安装完成后运行命令 nvidia-smi 验证 #卸载网卡驱动: #./NVIDIA-Linux-x86_64-535.54.03.run --uninstall

出现如图所示信息,确认显卡驱动安装成功。查看显卡驱动版本,CUDA driver版本为右上角(此处应该是12.2)
8、 安装CUDA Toolkit
chmod +x cuda_12.1.0_530.30.02_linux.run ./cuda_12.1.0_530.30.02_linux.run #如下图所示:

选中“Drivers”,会重新覆盖安装显卡驱动,如显卡驱动已安装好,不需要选中
不要选中“Kernel Objects”,否则会提示报错
安装完成后如下图所示:

运行命令“nvcc -V”,查看cuda runtime版本,该版本号要<= nvidia-smi右上角显示的cuda版本:

再次运行nvidia-smi命令,可以看到右上角的CUDA版本变成了12.1。如果安装cuda的时候未选择“install drvier”,则右上角的CUDA版本还是12.2
配置cuda环境变量:
vim ~/.bash_profile #添加如下内容: export LD_LIBRARY_PATH=/usr/local/cuda/lib64 export PATH=$PATH:/usr/local/cuda/bin export CUDA_HOME=$CUDA_HOME:/usr/local/cuda #保存后运行如下命令: source ~/.bash_profile
如果需要删除cuda,则直接删除所在目录就可以了
注:CUDA Driver版本(nvidia-smi命令查看)需要大于等于CUDA runtime版本(nvcc --version命令查看)
CUDA runtime版本需要大于等于CUDA libraries版本(Pytorch附带下载的CUDA toolkit版本)
CUDA说明:
nvidia-smi属于driver API
nvcc属于runtime API
nvidia-smi #查看CUDA Driver版本,Driver版本可以兼容老版本
nvcc -V #查看CUDA Runtime版本
CUDA Driver版本 要求>= CUDA Runtime版本
如果CUDA版本(nvcc -V)为11.7,那PyTorch只能使用11.7及以下版本
nvcc是CUDA编译器,只知道runtime 版本,甚至不知道是否安装了GPU driver。
用于支持driver API的必要文件(如libcuda.so)是由GPU driver installer安装的。
用于支持runtime API的必要文件(如libcudart.so以及nvcc)是由CUDA Toolkit installer安装的。
浙公网安备 33010602011771号