摘要: 排查顺序 最常见的就是出现了除0或者log0这种,看看代码中在这种操作的时候有没有加一个很小的数,但是这个数数量级要和运算的数的数量级要差很多。一般是1e-8。在optim.step()之前裁剪梯度。 optim.zero_grad() loss.backward() nn.utils.clip_g 阅读全文
posted @ 2021-07-16 11:58 TinaSmile 阅读(100) 评论(0) 推荐(0)