摘要:
深度学习中的梯度消失和爆炸 详细分析参考: 简单的一句话总结就是: 这二者本质上是同一个问题,在反向传播时,需要求梯度.根据链式求导法则,所以相当于各层的偏导数连乘,由于激活函数的存在,有些激活函数的偏导数一直小于1或者大于1,那么偏导数连乘以后,就会造成梯度过小或过大.从而使得参数变化很小或者参数 阅读全文
posted @ 2019-12-31 17:30
core!
阅读(981)
评论(0)
推荐(0)
摘要:
"上一篇" 讲了防止过拟合的一种方式,权重衰减,也即在loss上加上一部分$\frac{\lambda}{2n} \|\boldsymbol{w}\|^2$,从而使得w不至于过大,即不过分偏向某个特征. 这一篇介绍另一种防止过拟合的方法,dropout,即丢弃某些神经元的输出.由于每次训练的过程里, 阅读全文
posted @ 2019-12-31 15:38
core!
阅读(10145)
评论(0)
推荐(2)
浙公网安备 33010602011771号