摘要: 计算机网络通信中最重要两个衡量指标主要是 带宽 和 延迟。分布式训练中需要传输大量的网络模型参数,网络通信至关重要。 AI集群通信实现方式 AI集群是由多台包含CPU、内存、GPU的服务器组成,需要考虑机器内通信和机器间通信。 机器内通信通常包括共享内存、PCIe、NVLink等方式,机器间主要通过 阅读全文
posted @ 2023-02-15 18:06 JadePeng 阅读(353) 评论(0) 推荐(0) 编辑
摘要: ChatGPT的推出,人工智能正式进入大模型时代。要训练一个chatgpt这样的大模型,需要分布式AI集群的支持。 深度学习迎来大模型 Open AI的GPT-3模型,使用512张V100,需要训练7个月。现在的大模型训练,离不开分布式训练,通过分布式训练来加速训练过程,减少耗时。 分布式并行架构 阅读全文
posted @ 2023-02-15 18:05 JadePeng 阅读(469) 评论(0) 推荐(0) 编辑