Linux运维笔记[16]-更新OpenEuler的cuda驱动

摘要

将OpenEuler系统上NVIDIA Tesla A100 SXM4-40GB的驱动从460.106.00(CUDA 11.2)更新至595.58.03(CUDA 13.2),实现大模型推理环境的现代化升级。更新后支持最新CUDA生态,为运行Qwen3-30B-A3B等新一代大模型提供硬件基础。

说明

本篇博客, 人类为第一作者, 龙虾为通讯作者.本文包含AI生成内容.

关键信息

项目 更新前 更新后
GPU NVIDIA A100-SXM4-40GB NVIDIA A100-SXM4-40GB
驱动版本 460.106.00 595.58.03
CUDA版本 11.2 13.2
操作系统 OpenEuler 22.03 LTS OpenEuler 22.03 LTS
内核版本 5.10.0-60.18.0.50.oe2203.x86_64 5.10.0-60.18.0.50.oe2203.x86_64

准备工作

1. 下载驱动和CUDA Toolkit

[https://www.nvidia.cn/drivers/results/]
[https://cn.download.nvidia.com/tesla/595.58.03/NVIDIA-Linux-x86_64-595.58.03.run]
[https://developer.download.nvidia.com/compute/cuda/13.2.0/local_installers/cuda_13.2.0_595.45.04_linux.run]
[https://www.nvidia.cn/drivers/details/266999/]
[https://zhuanlan.zhihu.com/p/595340921]
[https://www.ctyun.cn/document/10029787/10129736]
[https://adg.csdn.net/69524aa95b9f5f31781b646d.html]

  • Data Center Driver for Linux x64 595.58.03 | Linux 64-bit
  • CUDA 13.2

从NVIDIA官网获取最新驱动和CUDA安装包:

  • 驱动: NVIDIA-Linux-x86_64-595.58.03.run (422.87 MB, 2026-03-24发布)
  • CUDA Toolkit: cuda_13.2.0_595.45.04_linux.run

驱动支持硬件列表包括A100、H100、L40等数据中心GPU 。

2. 安装编译依赖

备注: 几年前装系统时装过, 现在估计软件包源不好找

# 安装内核开发包(必须匹配当前内核版本)
sudo yum install "kernel-devel-uname-r == $(uname -r)" gcc make -y
sudo yum install vulkan-loader -y

注意:OpenEuler需安装与当前运行内核完全匹配的kernel-devel,否则会出现unable to find kernel source tree错误 。

3. 禁用Nouveau驱动(可选)

# 检查Nouveau是否加载
lsmod | grep nouveau

# 若存在输出,需禁用Nouveau
sudo vim /usr/lib/modprobe.d/dist-blacklist.conf
# 添加以下内容:
blacklist nouveau
options nouveau modeset=0

# 重建initramfs
sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r)-nouveau.img
sudo dracut /boot/initramfs-$(uname -r).img $(uname -r)

# 重启后验证
sudo reboot
lsmod | grep nouveau  # 应无输出

安装驱动

1. 上传并安装驱动

# 赋予执行权限
chmod +x NVIDIA-Linux-x86_64-595.58.03.run

# 执行安装(指定内核源码路径)
sudo sh NVIDIA-Linux-x86_64-595.58.03.run --disable-nouveau --kernel-source-path=/usr/src/kernels/$(uname -r)

安装过程交互选项建议:

  • Register kernel module with DKMS? → Yes(服务器环境推荐)
  • Install 32-bit compatibility libraries? → No(服务器通常不需要)
  • Run nvidia-xconfig? → Yes(自动配置X驱动)

2. 重启并验证

sudo reboot
nvidia-smi

预期输出

[qsbye@Tesla ~]$ nvidia-smi
Sun Mar 29 21:41:16 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 595.58.03              Driver Version: 595.58.03      CUDA Version: 13.2     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA A100-SXM4-40GB          Off |   00000000:82:00.0 Off |                    0 |
| N/A   40C    P0             38W /  400W |       4MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+

安装CUDA Toolkit 13.2

1. 安装CUDA

chmod +x cuda_13.2.0_595.45.04_linux.run
## 先创建临时目录
mkdir -p /home/qsbye/cuda_tmp
## 运行安装程序(不安装驱动)
sudo sh cuda_13.2.0_595.45.04_linux.run --tmpdir=/home/qsbye/cuda_tmp

安装界面操作:

  1. 输入 accept 接受协议
  2. 取消勾选Driver(已单独安装595.58.03,版本更新)
  3. 勾选CUDA Toolkit 13.2
  4. 选择 Install

2. 配置环境变量

vim ~/.bashrc
export PATH="/usr/local/cuda-13.2/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-13.2/lib64:$LD_LIBRARY_PATH"
source ~/.bashrc

3. 验证安装

## 验证
nvcc --version
## 测试
nvcc --version
cd /home/qsbye && nvcc hello.cu -o hello && ./hello

hello.cu

#include <stdio.h>

__global__ void helloFromGPU()
{
    printf("Hello, World from GPU! (thread %d in block %d)\n", threadIdx.x, blockIdx.x);
}

int main()
{
    printf("Hello, World from CPU!\n");
    printf("CUDA version: 13.2\n\n");

    helloFromGPU<<<2, 4>>>();
    cudaDeviceSynchronize();

    return 0;
}

预期输出

[qsbye@Tesla ~]$ nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2026 NVIDIA Corporation
Built on Mon_Mar_02_09:52:23_PM_PST_2026
Cuda compilation tools, release 13.2, V13.2.51
Build cuda_13.2.r13.2/compiler.37434383_0

$ nvcc hello.cu -o hello && ./hello
Hello, World from CPU!
CUDA version: 13.2

Hello, World from GPU! (thread 0 in block 0)
Hello, World from GPU! (thread 1 in block 0)
...
Hello, World from GPU! (thread 3 in block 1)

总结

本次升级将Tesla A100 SXM4的驱动栈从2020年的460系列更新至2026年的595系列,跨度超过5年。新版本不仅修复了旧驱动的稳定性问题,更重要的是支持CUDA 13.2生态,为运行新一代大模型(如Qwen3系列)和先进量化技术(TurboQuant)奠定基础。升级过程约需30分钟,建议生产环境在维护窗口期执行。


参考链接

posted @ 2026-04-04 10:27  qsBye  阅读(6)  评论(0)    收藏  举报