荣一不是阿贝尔

技术决定长度,‘情怀’决定高度。

导航

消失的梯度问题及其原因

目录

 

1结论

结论1:神经网络中不同层之间的学习率不同,外层的学习率比内层大。

结论2:这说明梯度下降算法在用于神经网络模型时稳定性不够好。

 

图1

其中:

表示第l层神经元的学习率

c是cost function的简写

b是bias的简写

 

为了更清晰的表明这个结论:

假定用1000张图片训练,随着epoch 的增加,学习率的变化情况如下:

 

图2

可以看出最外层的学习率是最内层的100倍。

 

2原因

图3

图4

图4中的函数式可以参考我的博客神经网络—Backpropagation

http://www.cnblogs.com/rongyiabel/articles/8419226.html

图5

图6

posted on 2018-02-06 19:30  荣一不是阿贝尔  阅读(239)  评论(0)    收藏  举报