分布式训练-NCCL库安装

1. 下载nccl的deb安装包:

下载地址:NVIDIA Collective Communications Library (NCCL) | NVIDIA Developer

下载对应版本的文件 image.png

2. 解压安装:

sudo dpkg -i nccl-local-repo-ubuntu2004-2.14.3-cuda11.7_1.0-1_amd64.deb 

3. 更新 APT 数据库:

sudo apt update

若此时报错显示于缺少 NVIDIA CUDA 软件源的公钥:

image.png 其解决办法为:NVIDIA CUDA 软件源的签名问题:

sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub sudo apt update

4. 使用 APT 安装 libnccl2、libnccl-dev 软件包

apt install libnccl2=2.14.3-1+cuda11.7 libnccl-dev=2.14.3-1+cuda11.7

安装全部步骤如下图所示 Installation Guide :: NVIDIA Deep Learning NCCL Documentation --- 安装指南 :: NVIDIA 深度学习 NCCL 文档image.png

posted @ 2024-06-25 15:49  wuhaoliu  阅读(3)  评论(0)    收藏  举报  来源