PyTorch中在反向传播前为什么要手动将梯度清零？

对于torch中训练时，反向传播前将梯度手动清零的理解

简单的理由是因为PyTorch默认会对梯度进行累加。至于为什么PyTorch有这样的特点，在网上找到的解释是说由于PyTorch的动态图和autograd机制使得其非常灵活，这也意味着你可以得到对一个张量的梯度，然后再次用该梯度进行计算，然后又可重新计算对新操作的梯度，对于何时停止前向操作并没有一个确定的点。所以自动设置梯度为0比较棘手，因为你不知道什么时候一个计算会结束以及什么时候又会有一个新的开始。默认累加的好处是当在多任务中对前面共享部分的tensor进行了多次计算操作后，调用不同任务loss的backward，那些tensor的梯度会自动累加，缺点是当你不想先前的梯度影响到当前梯度的计算时需要手动清零。

posted @ 2019-08-27 09:00 高颜值的殺生丸阅读(1025) 评论(0) 收藏举报

刷新页面返回顶部

点此进入CSDN

高颜值的殺生丸

博主擅长python和c++，从事人工智能领域自然语言处理和图像识别方面的工作，欢迎大家来讨论交流

PyTorch中在反向传播前为什么要手动将梯度清零？

对于torch中训练时，反向传播前将梯度手动清零的理解

作者信息

昵称：

园龄：4年6个月

粉丝：1209

QQ：522414928