银河麒麟高级服务器操作系统V11-安装英伟达显卡驱动和CUDA驱动

软硬件信息

CPU:Hygon C86-3G (OPN:3350) CPU @ 3.0GHz
MEM:DDR4 3200 16GB * 2
GPU:NVIDIA RTX 4500 Ada Generation 24GB(AD103)[10de:27b1]
OS:银河麒麟高级服务器操作系统V11 x86
内核版本:6.6.0-32.7.v2505.ky11.x86_64
GPU驱动:580.119.02
CUDA版本:13.0.0_580.65.06

提示

  • 驱动安装仅能在命令行模式下执行,建议启动SSH,使用SSH连接后执行安装命令。

驱动版本选择

  1. 驱动官网:https://www.nvidia.cn/drivers/lookup/ ,依次选择:
    • NVIDIA RTX PRO / RTX / Quadro
    • NVIDIA RTX Series
    • NVIDIA RTX 4500 Ada Generation
    • Linux 64-bit
    • Chinese (Simplified)
  2. 这里选型的是当前最新版580.119.02,点击直接下载
  3. 根据驱动版本到这里“cuda-toolkit-release-notes”,查最新支持的CUDA版本,也可以通过CUDA版本反选GPU驱动版本。
  4. 直接找到页面内“CUDA Driver”部分,里面对CUDA版本和显卡驱动做了明确的要求。
  5. 然后打开英伟达CUDA Toolkit Archive,选择需要的CUDA版本,这里拿13.0.0做示例。
  6. 依次选择“Linux”-“x86_64”-“KylinOS”-“10”-“runfile(local)”,下面会有官方的安装提示,这里我提供一个版本:13.0.0_580.65.06
  7. 将GPU驱动文件和CUDA驱动文件下载后上传到操作系统目录中。

安装GPU驱动

  1. 检查系统信息
    # 查看系统版本
    cat /etc/kylin-release
    
    # 查看内核版本(非常重要)
    uname -r
    
    # 查看 CPU 架构(x86_64 还是 aarch64)
    arch
    
    # 检查显示输出设备是否有NVIDIA Corporation Device
    lspci | grep -i vga
    
  2. 安装编译环境
    sudo dnf groupinstall "Development Tools"
    sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
    sudo dnf install elfutils-libelf-devel
    sudo dnf install pciutils
    
  3. 禁用nouveau驱动
    # 创建 blacklist 文件
    echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
    echo "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf
    # 强制重建 initramfs,并明确排除 nouveau 驱动
    sudo dracut --force --omit-drivers "nouveau" /boot/initramfs-$(uname -r).img $(uname -r)
    # 验证是否已禁用(已禁用应无输出)
    lsinitrd | grep 'nouveau.ko'
    # 重启
    sudo reboot
    # 再次检查(应无输出)
    lsmod | grep nouveau
    
  4. 检查当前模式,需要处于多用户模式,图形界面下无法安装驱动
    # 查看当前默认 target
    systemctl get-default
    # 如果是 graphical.target,切换为 multi-user
    sudo systemctl set-default multi-user.target
    # 重启
    sudo reboot
    
  5. 切换到存放驱动的目录下,开始安装显卡驱动
    chmod +x NVIDIA-Linux-x86_64-580.119.02.run
    sudo ./NVIDIA-Linux-x86_64-580.119.02.run \
         --no-opengl-files \
         --no-x-check \
         --no-nouveau-check \
         --dkms
    
    • --no-opengl-files:服务器通常不需要 OpenGL,避免冲突
    • --no-x-check:跳过图形环境检查
    • --no-nouveau-check:虽已禁用,但加此参数更稳妥
    • --dkms:如果安装了 dkms 包,建议加上,便于内核升级后自动重建模块
  6. 执行完命令后会进入一个“NVIDIA Software Installer for Unix/Linux”交互界面,依次完成一下选择即可。
    • 内核模块类型选择:NVIDIA Proprietary
      • 想要使用CUDA就只能用这个,不要选MIT/GPL
    • 提示未安装32位兼容运行库:OK
      • 一般不需要,所以无视即可
    • 是否将内核模块源码注册到 DKMS:Yes
      • 以后内核升级就不需要再次安装显卡驱动
    • 是否需要运行 nvidia-xconfig 工具,更新到X配置文件:No
      • 如果不需要图形化页面,可以选择No;如果需要图形化页面,可以选择Yes。一般为了最好的兼容性,选择No比较好
      • 如果选择了不启用图形界面,未来要启用的话,可以参考/usr/share/doc/NVIDIA_GLX-1.0/README.txt手动配置X Server
  7. 提示完成GPU显卡驱动安装以后就会自动退出交互界面,执行命令检查显卡驱动是否正常工作。
    nvidia-smi
    # 正常情况下会展示以下内容,显示了显卡驱动版本、显卡名称、功耗信息、运行进程等内容
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 580.119.02             Driver Version: 580.119.02     CUDA Version: 13.0     |
    +-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA RTX 4500 Ada Gene...    Off |   00000000:05:00.0 Off |                  Off |
    | 30%   50C    P0             33W /  210W |       0MiB /  24570MiB |      0%      Default |
    |                                         |                        |                  N/A |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+
    

安装CUDA驱动

  1. 回到存放驱动的目录下,开始安装CUDA驱动。
    sudo sh cuda_13.0.0_580.65.06_linux.run
    
  2. 等待一会后会进入一个交互界面,依次选择。
    • EULA:输入accept
    • CUDA Installer:取消勾选 Driver,只保留 CUDA Toolkit 13.0CUDA Documentation 13.0
    • 选择Install
  3. 等待一段时间,会打印出Summary,看到Toolkit: Installed in /usr/local/cuda-13.0/ 就说明已经完成安装了。
  4. 配置环境变量。
    echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
    echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
    source ~/.bashrc
    
  5. 检查CUDA驱动版本。
    nvcc --version
    # 正常会输出以下类似内容
    nvcc: NVIDIA (R) Cuda compiler driver
    Copyright (c) 2005-2025 NVIDIA Corporation
    Built on Wed_Jul_16_07:30:01_PM_PDT_2025
    Cuda compilation tools, release 13.0, V13.0.48
    Build cuda_13.0.r13.0/compiler.36260728_0
    

测试CUDA

  1. 创建测试目录
    mkdir ~/test
    cd ~/test
    nano test.cu
    
  2. 输入以下内容
    #include <cuda_runtime.h>
    #include <iostream>
    int main() {
    	int nDevices;
    	cudaGetDeviceCount(&nDevices);
    	std::cout << "Number of GPUs: " << nDevices << std::endl;
    	return 0;
    }
    
  3. 编译运行
    nvcc test.cu -o test
    ./test
    # 应该是以下输出
    Number of GPUs: 1
    
posted @ 2026-01-14 16:04  苍凉温暖  阅读(0)  评论(0)    收藏  举报