2024 年 4月 15 日随笔档案 - 李一二

2024年4月15日

Pytorch DistributedDataParallel（DDP）教程二：快速入门实践篇

摘要：一、简要回顾DDP 在上一篇文章中，简单介绍了Pytorch分布式训练的一些基础原理和基本概念。简要回顾如下： 1，DDP采用Ring-All-Reduce架构，其核心思想为：所有的GPU设备安排在一个逻辑环中，每个GPU应该有一个左邻和一个右邻，设备从它的左邻居接收数据，并将数据汇总后发送给右邻。阅读全文

posted @ 2024-04-15 16:55 李一二阅读(5871) 评论(2) 推荐(2)

Pytorch DistributedDataParallel（DDP）教程一：快速入门理论篇

摘要：一、写在前面随着深度学习技术的不断发展，模型的训练成本也越来越高。训练一个高效的通用模型，需要大量的训练数据和算力。在很多非大模型相关的常规任务上，往往也需要使用多卡来进行并行训练。在多卡训练中，最为常用的就是分布式数据并行（DistributedDataParallel, DDP）。但是现有的阅读全文

posted @ 2024-04-15 09:50 李一二阅读(4504) 评论(0) 推荐(3)

公告