optize.zero:因为上一次的梯度对本次寻优没有用处,所以需要清零
1.初始化优化器
2.优化器清零
3.反向传播得到梯度
4.梯度下降优化,对data进行优化
查看每一轮的损失函数值,最外层循环是在整个数据集的循环次数