11 2021 档案

model.zero_grad() VS. optimzer.zero_grad()

摘要：引言在模型训练时，每个Batch反向传播完成后我们需要手动清除计算图上本次迭代的所有梯度在阅读不同的代码时，总能看到不同的清空代码： model.zero_grad() optimizer.zero_grad() 正文上述两种梯度清空的方式均有效，区别在于起作用的范围不同 model.zero 阅读全文

posted @ 2021-11-30 10:19 Chaosun

Chaos

Everything slides down towards Chaos.

11 2021 档案

公告