会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
Azure's Blog
博客园
首页
新随笔
联系
订阅
管理
2022年8月28日
pytorch多卡训练DDP卡死问题排查
摘要: 背景 单机多卡并行模型训练,使用DistributedDataParallel加速,调用超过一个GPU会发生卡死,表现为GPU0占用100%且无法继续。 排查 使用nvtop工具查看,发现GPU0会被分配nproc_per_node对应数量的process,表现与预期N卡N线不符。 调用DDP部分代
阅读全文
posted @ 2022-08-28 17:08 azureology
阅读(18742)
评论(1)
推荐(1)
公告