摘要: DDP Overview 在开始介绍Pytorch分布式训练之前,需要首先理解有关于分布式训练的一些概念: master node:主GPU,负责同步,模型加载,拷贝,写日志等操作。 process group:在K个GPU上训练/测试模型,则K个进程形成一个组,该组由backend支持,Pytor 阅读全文
posted @ 2022-04-26 18:09 灵客风 阅读(705) 评论(0) 推荐(0)