pytorch中的zero_grad()执行时机

在反向传播(backward())前执行即可

zero_grad() 用以清除优化器的梯度
对张量执行backward(),以计算累积梯度
执行optimizer.step(),优化器使用梯度更新参数
当优化器更新完成,梯度即失去意义,即可以清除,为保证下一次梯度开始累积时为0,则在下一次执行反向传播前清除即可

posted @ 2024-07-23 11:28 tomcat4014 阅读(10) 评论(0) 收藏举报来源

刷新页面返回顶部