神经网络梯度消失原因&解决方案

个人学习使用，内容来源于网络，侵权删

主要原因就是反向传播链式求导某项小于1（如使用sigmoid激活函数，其求导之后值\(\leq0.25\)），越深层次网络导数连乘越多，从而导致梯度消失，反之某项大于1会导致梯度爆炸，因此初始\(W\)过大会导致梯度爆炸。

如图所示，当\(\sigma\)激活函数求导后的值太小，经过多层传播后会导致梯度消失；当\(w\)或者其他隐藏层计算的值太大，则导致梯度爆炸。

解决方案如下：
参考链接

posted on 2024-02-26 16:57 zhou-snaker 阅读(104) 评论(0) 收藏举报