神经网络梯度爆炸/消失以及改善方式(吴恩达)

神经网络的传播(前向)过程如图，如果ω>1（即使是稍微大一点点），只要层数足够多最后会造成ω呈指数上升，这就是梯度爆炸；同理，当ω<1（即使是稍微小一点点），ω会快速缩小逼近0，这就是梯度消失

目前能稍微解决的方法是对ω进行合理地初始化

对于若干层数且每层的神经元数量不尽相同的情况下，比较好的取向是神经元数量多的ω大小尽可能小，而神经元数量少的ω尽可能大，即神经元数量与ω成反比关系：ω∝k/√n，其中k为常数，n为神经元数

实际使用中，k的取值需要考虑激活函数。如ReLU函数k取2，tanh函数k取1

根据之前随机初始化参数的必要性 https://www.cnblogs.com/toriyung/p/16406891.html

可得到ω的初始化值：

ω = np.random()*np.sqrt(1/n)*k

posted on 2022-07-28 18:33 Toriyung 阅读(89) 评论(0) 收藏举报

刷新页面返回顶部

Toriyung