2022 年 8月 28 日随笔档案 - azureology

2022年8月28日

摘要：背景单机多卡并行模型训练，使用DistributedDataParallel加速，调用超过一个GPU会发生卡死，表现为GPU0占用100%且无法继续。排查使用nvtop工具查看，发现GPU0会被分配nproc_per_node对应数量的process，表现与预期N卡N线不符。调用DDP部分代阅读全文

posted @ 2022-08-28 17:08 azureology 阅读(19037) 评论(1) 推荐(1)

Loading

Azure's Blog

公告