消失的梯度问题及其原因

1结论

结论1：神经网络中不同层之间的学习率不同，外层的学习率比内层大。

结论2：这说明梯度下降算法在用于神经网络模型时稳定性不够好。

图1

其中:

表示第l层神经元的学习率

c是cost function的简写

b是bias的简写

为了更清晰的表明这个结论：

假定用1000张图片训练，随着epoch 的增加，学习率的变化情况如下：

图2

可以看出最外层的学习率是最内层的100倍。

图3

图4

图4中的函数式可以参考我的博客神经网络—Backpropagation

http://www.cnblogs.com/rongyiabel/articles/8419226.html

图5

图6

posted on 2018-02-06 19:30 荣一不是阿贝尔阅读(239) 评论(0) 收藏举报

刷新页面返回顶部