Loading

摘要: 背景 单机多卡并行模型训练,使用DistributedDataParallel加速,调用超过一个GPU会发生卡死,表现为GPU0占用100%且无法继续。 排查 使用nvtop工具查看,发现GPU0会被分配nproc_per_node对应数量的process,表现与预期N卡N线不符。 调用DDP部分代 阅读全文
posted @ 2022-08-28 17:08 azureology 阅读(18742) 评论(1) 推荐(1)