A100服务器使用过程的曲折

使用A100显卡跑程序时,当使用多张卡一起跑的时候就会出现程序卡住不动的情况,这是由于系统的BIOS里IO虚拟化默认启动了PCI访问控制服务(ACS)导致GPU间无法直接通过P2P方式通信
export NCCL_P2P_DISABLE=1

在代码程序前加上这个命令就能多卡运行了、

posted @ 2023-05-09 12:08  燕汀  阅读(68)  评论(0)    收藏  举报