摘要: 在较深的网络,如多层CNN或者非常长的RNN,由于求导的链式法则,有可能会出现梯度消失(Gradient Vanishing)或梯度爆炸(Gradient Exploding )的问题。 原理 问题:为什么梯度爆炸会造成训练时不稳定而且不收敛? 梯度爆炸,其实就是偏导数很大的意思。回想我们使用梯度下 阅读全文
posted @ 2018-10-02 18:34 理想几岁 阅读(6612) 评论(0) 推荐(1)