CUDA/CuDNN/PyTorch 安装配置

前言

整体配置流程参考:

  1. 深度学习环境配置(一) | Miya's Blog
  2. 深度学习环境配置(二) | Miya's Blog

细节上些许不同,下文一一介绍。

CUDA 安装

首先检查 Nvidia 驱动。服务器操作系统为 Ubuntu 22.04 Desktop,默认安装 Nvidia 驱动版本 v530。接下来安装 CUDA Toolkit v12.1,官方提供了 .deb (local),.deb (network) 和 .run 三种安装方式。

由 deb 包安装

由 .deb 安装时,报错形如

dpkg: 处理软件包 cuda-12-1 (--configure) 时出错 - 依赖关系问题 - 仍未被配置

参考了别人的案例,一般是 GCC G++ 版本过低所致,然而升级到 v12.3 后还是没有解决该问题。笔者尝试更新 Nvidia 驱动,如下:

清理 Nvidia 驱动

sudo apt clean
sudo apt-get update
sudo apt-get purge nvidia*
sudo apt autoremove

[可选] 禁用 Nouveau

sudo nano /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
sudo update-initramfs -u

安装新驱动并重启

ubuntu-drivers devices
sudo ubuntu-drivers autoinstall  # v570 by default

反复尝试数次,仍然无法成功安装 CUDA。查阅得知,从 .deb 安装会默认重装 Nvidia Driver,引起版本冲突,导致 CUDA 安装失败。因此,改由 .run 安装。

由 runfile 安装

参考官方 Instruction 安装。进入交互界面后会提示已有 Driver 存在并建议删除,选择 [Continue] 并继续即可。进入 CUDA Installer 的交互界面,取消勾选 Driver,其他选项默认安装。

接下来的步骤便与参考文章一致了,配置环境变量后执行 nvcc --version,即验证 CUDA 安装成功。CuDNN 和 PyTorch 的安装于 Conda 中进行,这里不再赘述。

参考

  1. cuDNN Archive | 版本对应
  2. 安装 CUDA - penuel - 博客园
  3. ubuntu 18.4 解决问题: Installation failed. See log at /var/log/cuda-installer.log for details.-CSDN博客
  4. Ubuntu 安装 Anaconda 教程 - 知乎

附录

  1. 安装过程中需要重启数次,该过程中可能跳分辨率,这是暂时缺失 Nvidia Driver 所致,检查 nvidia-smi 也可以看到输出为 failed。重装 Nvidia Driver 后问题即解决。
  2. 一种暴力的“dpkg: 处理软件包 xxx (--configure) 时出错”解决方法
posted @ 2025-07-04 18:06  Miya_Official  阅读(463)  评论(0)    收藏  举报