神经网络梯度爆炸/消失以及改善方式(吴恩达)
神经网络的传播(前向)过程如图,如果ω>1(即使是稍微大一点点),只要层数足够多最后会造成ω呈指数上升,这就是梯度爆炸;同理,当ω<1(即使是稍微小一点点),ω会快速缩小逼近0,这就是梯度消失

目前能稍微解决的方法是对ω进行合理地初始化
对于若干层数且每层的神经元数量不尽相同的情况下,比较好的取向是神经元数量多的ω大小尽可能小,而神经元数量少的ω尽可能大,即神经元数量与ω成反比关系:ω∝k/√n,其中k为常数,n为神经元数
实际使用中,k的取值需要考虑激活函数。如ReLU函数k取2,tanh函数k取1
根据之前 随机初始化参数的必要性 https://www.cnblogs.com/toriyung/p/16406891.html
可得到ω的初始化值:
ω = np.random()*np.sqrt(1/n)*k
浙公网安备 33010602011771号