2021 年 11月 30 日随笔档案 - Chaosun

2021年11月30日

model.zero_grad() VS. optimzer.zero_grad()

摘要：引言在模型训练时，每个Batch反向传播完成后我们需要手动清除计算图上本次迭代的所有梯度在阅读不同的代码时，总能看到不同的清空代码： model.zero_grad() optimizer.zero_grad() 正文上述两种梯度清空的方式均有效，区别在于起作用的范围不同 model.zero 阅读全文

posted @ 2021-11-30 10:19 Chaosun 阅读(523) 评论(0) 推荐(0)

Chaos

Everything slides down towards Chaos.

公告