一、loss固定的原因:
当输入变量都比较大时,反向传播时梯度值较小使loss无法收敛。
二、学习率过大,损失值上升。
由于平方损失函数是一个二次函数,所以当学习率大时步长大,导致神经网络越迭代损失值越大。