梯度消失&&梯度爆炸

造成梯度消失的原因

两种情况下梯度消失经常出现,一是在深层网络中,二是采用了不合适的损失函数,比如sigmoid。
梯度爆炸一般出现在深层网络和权值初始化值太大的情况下
总结:从深层网络角度来讲,不同的层学习的速度差异很大,表现为网络中靠近输出的层学习的情况很好,靠近输入的层学习的很慢,有时甚至训练了很久,前几层的权值和刚开始随机初始化的值差不多。因此,梯度消失、爆炸,其根本原因在于反向传播训练法则

梯度消失、爆炸的解决方案

1 方案1-预训练加微调

2 方案2-梯度剪切、正则

3 方案3-relu、leakrelu、elu等激活函数

4 方案4-LSTM

posted @ 2019-10-27 16:44  阳光老男孩  阅读(82)  评论(0)    收藏  举报