多节点高性能计算GPU集群的构建

建议参考原文:

https://www.volcengine.com/docs/6535/78310

 

=============================================

 

一直都在使用超算的GPU集群,但是从来没有实际操作过,虽然在自己的个人的三台主机上安装过小型的MPI集群,但是毕竟没有实际超算平台的构建经验,比如NCCL的超算平台上的安装及配置,InfiniBand高速网络的构建等等,这些都是没有实际搞过的,在网上无意间看到的配置资料,于是在这里记录一下。

 

下面内容源自:

https://www.volcengine.com/docs/6535/78310

 

 

使用NCCL Tests测试工具评估集群性能

mpirun -x NCCL_IB_HCA=mlx5_1:1 -x NCCL_IB_DISABLE=0 -x NCCL_SOCKET_IFNAME=eth1 -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_TIMEOUT=23 -x NCCL_IB_RETRY_CNT=7 -hostfile hostfile -n 16 -N 8 --allow-run-as-root --mca btl tcp,self --mca btl_tcp_if_exclude lo,mlx5_0 ./build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100

 

 

--------------------------------------------------------

 

 

 

 

=========================================

 

 

完整的配置还需要参考原文:

https://www.volcengine.com/docs/6535/78310

posted on 2023-07-27 12:51  Angry_Panda  阅读(509)  评论(0)    收藏  举报

导航