PyTorch单机多卡分布式训练卡死（已解决，原因未知）

4卡080Ti，总的batchsize=4，使用tmux挂在后台训练，经过几个小时发现一直卡在第26个epoch（共60个epoch）的第1400个batch，nvidia-smi查看发现0号和2号卡满载，1号和3号卡在休息...于是只能Ctrl+C。结果突然发现tmux显示到了第4800个batch，之后四张卡均满载，同时训练恢复正常。原因未知。

posted @ 2022-12-07 20:16 脂环阅读(1542) 评论(1) 收藏举报