随笔分类 - ROCm
摘要:NCCL 的原理 NCCL是专为NVIDIA GPU设计的集合通信库,它和 MPI 一样支持多种高效的集体通信操作,如广播、归约、全收集等。通信的实现方式分为两种类型:机器内通信与机器间通信。 机器内通信: GPU Direct Shared Memory(2010年6月引入):共享内存(QPI/U
阅读全文
摘要:1. 前言 大模型训练离不开集合通信 大模型分布式训练往往需要上千乃至上万 GPU 卡进行超大规模并行训练,是典型的计算密集型和通信密集型场景。 在真实的场景中,为了高效的训练,我们一般采用多种并行策略混合的方式。常见的包括数据并行,流水并行,张量并行,序列并行,专家并行,其中张量并行和流水线并行都
阅读全文
摘要:1. ROCm简介 图 1:ROCm 软件栈的组成部分 ROCm是一个开源堆栈,主要由开源软件(OSS)组成,设计用于图形处理单元(GPU)计算。 ROCm由一组驱动程序、开发工具和api组成,支持从低级内核到最终用户应用程序的GPU编程。使用ROCm,您可以自定义GPU软件以满足您的特定需求。您可
阅读全文

浙公网安备 33010602011771号