分布式训练-NCCL库安装
1. 下载nccl的deb安装包:
下载地址:NVIDIA Collective Communications Library (NCCL) | NVIDIA Developer
下载对应版本的文件
2. 解压安装:
sudo dpkg -i nccl-local-repo-ubuntu2004-2.14.3-cuda11.7_1.0-1_amd64.deb
3. 更新 APT 数据库:
sudo apt update
若此时报错显示于缺少 NVIDIA CUDA 软件源的公钥:
其解决办法为:NVIDIA CUDA 软件源的签名问题:
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub sudo apt update
4. 使用 APT 安装 libnccl2、libnccl-dev 软件包
apt install libnccl2=2.14.3-1+cuda11.7 libnccl-dev=2.14.3-1+cuda11.7
安装全部步骤如下图所示 Installation Guide :: NVIDIA Deep Learning NCCL Documentation --- 安装指南 :: NVIDIA 深度学习 NCCL 文档:

浙公网安备 33010602011771号