Loading

PyTorch单机多卡分布式训练卡死(已解决,原因未知)

4卡080Ti,总的batchsize=4,使用tmux挂在后台训练,经过几个小时发现一直卡在第26个epoch(共60个epoch)的第1400个batch,nvidia-smi查看发现0号和2号卡满载,1号和3号卡在休息...于是只能Ctrl+C。结果突然发现tmux显示到了第4800个batch,之后四张卡均满载,同时训练恢复正常。原因未知。

posted @ 2022-12-07 20:16  脂环  阅读(1542)  评论(1)    收藏  举报