消失的梯度问题及其原因
目录

1结论
结论1:神经网络中不同层之间的学习率不同,外层的学习率比内层大。
结论2:这说明梯度下降算法在用于神经网络模型时稳定性不够好。

图1
其中:

表示第l层神经元的学习率
c是cost function的简写
b是bias的简写
为了更清晰的表明这个结论:
假定用1000张图片训练,随着epoch 的增加,学习率的变化情况如下:

图2
可以看出最外层的学习率是最内层的100倍。
2原因

图3

图4
图4中的函数式可以参考我的博客神经网络—Backpropagation
http://www.cnblogs.com/rongyiabel/articles/8419226.html

图5

图6
浙公网安备 33010602011771号