摘要: RNN梯度消失和爆炸的原因经典的RNN结构如下图所示:假设我们的时间序列只有三段, 为给定值,神经元没有激活函数,则RNN最简单的前向传播过程如下:假设在t=3时刻,损失函数为 。则对于一次训练任务的损失函数为 ,即每一时刻损失值的累加。使用随机梯度下降法训练RNN其实就是对 、 、 以及 求偏导,并不断调整它们以使L尽可能达到最小的过程。现在假设我们我们的时间序列只有三段,t1,t... 阅读全文
posted @ 2019-05-12 21:28 Jerry_Jin 阅读(5736) 评论(1) 推荐(1)