爆炸和消失
对于爆炸:
使用一种简单的技巧叫做梯度剪裁(gradient clipping)
为了防止梯度无线增长,你可以在它们的模增长至过大值时缩小学习的步长,这样做有技巧性,但简单有效。
对于消失:
解决梯度消失问题要更困难些,梯度消失会使模型只记住近期事件,而遗忘更远的过去发生的事,这意味着递归神经网路容易在几个时间步后就不再管用。
这时候该LSTM (Long Short-Term Memory)登场了,它是长短期记忆的缩写,从概念上说,一个递归神经网络由很多个这样单元组成,一个单元包括:一个基于过去的输入,一个新的输入,一个预测,一个连接到未来的值,在中间的则是一个典型的神经元。就像你知道,它有一些权重、一些线性函数等构成,通过使用LSTM,我们将用一个有点奇怪的机制来代替这个模块,它看起来有点复杂,但功能和神经元一样,你可以把它放到你的RNN中,别担心没问题。你不需要修改其他的东西,但它能够很有效地解决消失梯度问题。
浙公网安备 33010602011771号