CUDA/CuDNN/PyTorch 安装配置
前言
整体配置流程参考:
细节上些许不同,下文一一介绍。
CUDA 安装
首先检查 Nvidia 驱动。服务器操作系统为 Ubuntu 22.04 Desktop,默认安装 Nvidia 驱动版本 v530。接下来安装 CUDA Toolkit v12.1,官方提供了 .deb (local),.deb (network) 和 .run 三种安装方式。
由 deb 包安装
由 .deb 安装时,报错形如
dpkg: 处理软件包 cuda-12-1 (--configure) 时出错 - 依赖关系问题 - 仍未被配置
参考了别人的案例,一般是 GCC G++ 版本过低所致,然而升级到 v12.3 后还是没有解决该问题。笔者尝试更新 Nvidia 驱动,如下:
清理 Nvidia 驱动
sudo apt clean
sudo apt-get update
sudo apt-get purge nvidia*
sudo apt autoremove
[可选] 禁用 Nouveau
sudo nano /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
sudo update-initramfs -u
安装新驱动并重启
ubuntu-drivers devices
sudo ubuntu-drivers autoinstall # v570 by default
反复尝试数次,仍然无法成功安装 CUDA。查阅得知,从 .deb 安装会默认重装 Nvidia Driver,引起版本冲突,导致 CUDA 安装失败。因此,改由 .run 安装。
由 runfile 安装
参考官方 Instruction 安装。进入交互界面后会提示已有 Driver 存在并建议删除,选择 [Continue] 并继续即可。进入 CUDA Installer 的交互界面,取消勾选 Driver,其他选项默认安装。
接下来的步骤便与参考文章一致了,配置环境变量后执行 nvcc --version,即验证 CUDA 安装成功。CuDNN 和 PyTorch 的安装于 Conda 中进行,这里不再赘述。
参考
- cuDNN Archive | 版本对应
- 安装 CUDA - penuel - 博客园
- ubuntu 18.4 解决问题: Installation failed. See log at /var/log/cuda-installer.log for details.-CSDN博客
- Ubuntu 安装 Anaconda 教程 - 知乎
附录
- 安装过程中需要重启数次,该过程中可能跳分辨率,这是暂时缺失 Nvidia Driver 所致,检查 nvidia-smi 也可以看到输出为 failed。重装 Nvidia Driver 后问题即解决。
- 一种暴力的“dpkg: 处理软件包 xxx (--configure) 时出错”解决方法

浙公网安备 33010602011771号