Linux运维笔记[16]-更新OpenEuler的cuda驱动
摘要
将OpenEuler系统上NVIDIA Tesla A100 SXM4-40GB的驱动从460.106.00(CUDA 11.2)更新至595.58.03(CUDA 13.2),实现大模型推理环境的现代化升级。更新后支持最新CUDA生态,为运行Qwen3-30B-A3B等新一代大模型提供硬件基础。
说明
本篇博客, 人类为第一作者, 龙虾为通讯作者.本文包含AI生成内容.
关键信息
| 项目 | 更新前 | 更新后 |
|---|---|---|
| GPU | NVIDIA A100-SXM4-40GB | NVIDIA A100-SXM4-40GB |
| 驱动版本 | 460.106.00 | 595.58.03 |
| CUDA版本 | 11.2 | 13.2 |
| 操作系统 | OpenEuler 22.03 LTS | OpenEuler 22.03 LTS |
| 内核版本 | 5.10.0-60.18.0.50.oe2203.x86_64 | 5.10.0-60.18.0.50.oe2203.x86_64 |
准备工作
1. 下载驱动和CUDA Toolkit
[https://www.nvidia.cn/drivers/results/]
[https://cn.download.nvidia.com/tesla/595.58.03/NVIDIA-Linux-x86_64-595.58.03.run]
[https://developer.download.nvidia.com/compute/cuda/13.2.0/local_installers/cuda_13.2.0_595.45.04_linux.run]
[https://www.nvidia.cn/drivers/details/266999/]
[https://zhuanlan.zhihu.com/p/595340921]
[https://www.ctyun.cn/document/10029787/10129736]
[https://adg.csdn.net/69524aa95b9f5f31781b646d.html]
- Data Center Driver for Linux x64 595.58.03 | Linux 64-bit
- CUDA 13.2
从NVIDIA官网获取最新驱动和CUDA安装包:
- 驱动:
NVIDIA-Linux-x86_64-595.58.03.run(422.87 MB, 2026-03-24发布) - CUDA Toolkit:
cuda_13.2.0_595.45.04_linux.run
驱动支持硬件列表包括A100、H100、L40等数据中心GPU 。
2. 安装编译依赖
备注: 几年前装系统时装过, 现在估计软件包源不好找
# 安装内核开发包(必须匹配当前内核版本)
sudo yum install "kernel-devel-uname-r == $(uname -r)" gcc make -y
sudo yum install vulkan-loader -y
注意:OpenEuler需安装与当前运行内核完全匹配的
kernel-devel,否则会出现unable to find kernel source tree错误 。
3. 禁用Nouveau驱动(可选)
# 检查Nouveau是否加载
lsmod | grep nouveau
# 若存在输出,需禁用Nouveau
sudo vim /usr/lib/modprobe.d/dist-blacklist.conf
# 添加以下内容:
blacklist nouveau
options nouveau modeset=0
# 重建initramfs
sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r)-nouveau.img
sudo dracut /boot/initramfs-$(uname -r).img $(uname -r)
# 重启后验证
sudo reboot
lsmod | grep nouveau # 应无输出
安装驱动
1. 上传并安装驱动
# 赋予执行权限
chmod +x NVIDIA-Linux-x86_64-595.58.03.run
# 执行安装(指定内核源码路径)
sudo sh NVIDIA-Linux-x86_64-595.58.03.run --disable-nouveau --kernel-source-path=/usr/src/kernels/$(uname -r)
安装过程交互选项建议:
- Register kernel module with DKMS? → Yes(服务器环境推荐)
- Install 32-bit compatibility libraries? → No(服务器通常不需要)
- Run nvidia-xconfig? → Yes(自动配置X驱动)
2. 重启并验证
sudo reboot
nvidia-smi
预期输出:
[qsbye@Tesla ~]$ nvidia-smi
Sun Mar 29 21:41:16 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 595.58.03 Driver Version: 595.58.03 CUDA Version: 13.2 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA A100-SXM4-40GB Off | 00000000:82:00.0 Off | 0 |
| N/A 40C P0 38W / 400W | 4MiB / 40960MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
安装CUDA Toolkit 13.2
1. 安装CUDA
chmod +x cuda_13.2.0_595.45.04_linux.run
## 先创建临时目录
mkdir -p /home/qsbye/cuda_tmp
## 运行安装程序(不安装驱动)
sudo sh cuda_13.2.0_595.45.04_linux.run --tmpdir=/home/qsbye/cuda_tmp
安装界面操作:
- 输入
accept接受协议 - 取消勾选Driver(已单独安装595.58.03,版本更新)
- 勾选CUDA Toolkit 13.2
- 选择
Install
2. 配置环境变量
vim ~/.bashrc
export PATH="/usr/local/cuda-13.2/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-13.2/lib64:$LD_LIBRARY_PATH"
source ~/.bashrc
3. 验证安装
## 验证
nvcc --version
## 测试
nvcc --version
cd /home/qsbye && nvcc hello.cu -o hello && ./hello
hello.cu
#include <stdio.h>
__global__ void helloFromGPU()
{
printf("Hello, World from GPU! (thread %d in block %d)\n", threadIdx.x, blockIdx.x);
}
int main()
{
printf("Hello, World from CPU!\n");
printf("CUDA version: 13.2\n\n");
helloFromGPU<<<2, 4>>>();
cudaDeviceSynchronize();
return 0;
}
预期输出:
[qsbye@Tesla ~]$ nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2026 NVIDIA Corporation
Built on Mon_Mar_02_09:52:23_PM_PST_2026
Cuda compilation tools, release 13.2, V13.2.51
Build cuda_13.2.r13.2/compiler.37434383_0
$ nvcc hello.cu -o hello && ./hello
Hello, World from CPU!
CUDA version: 13.2
Hello, World from GPU! (thread 0 in block 0)
Hello, World from GPU! (thread 1 in block 0)
...
Hello, World from GPU! (thread 3 in block 1)
总结
本次升级将Tesla A100 SXM4的驱动栈从2020年的460系列更新至2026年的595系列,跨度超过5年。新版本不仅修复了旧驱动的稳定性问题,更重要的是支持CUDA 13.2生态,为运行新一代大模型(如Qwen3系列)和先进量化技术(TurboQuant)奠定基础。升级过程约需30分钟,建议生产环境在维护窗口期执行。
参考链接:

将OpenEuler系统上NVIDIA Tesla A100 SXM4-40GB的驱动从460.106.00(CUDA 11.2)更新至595.58.03(CUDA 13.2),实现大模型推理环境的现代化升级。更新后支持最新CUDA生态,为运行Qwen3-30B-A3B等新一代大模型提供硬件基础。
浙公网安备 33010602011771号