摘要: $c_{t}=c_{t 1} \otimes \sigma\left(W_{f} \cdot\left[H_{t 1}, X_{t}\right]\right) \oplus \tanh \left(W_{c} \cdot\left[H_{t 1}, X_{t}\right]\right) \oti 阅读全文
posted @ 2019-07-24 19:00 Elaine_DWL 阅读(829) 评论(0) 推荐(0)
摘要: RNN中的梯度消失/爆炸原因 梯度消失/梯度爆炸是深度学习中老生常谈的话题,这篇博客主要是对RNN中的梯度消失/梯度爆炸原因进行公式层面上的直观理解。 首先,上图是RNN的网络结构图,$(x_1, x_2, x_3, …, )$是输入的序列,$X_t$表示时间步为$t$时的输入向量。假设我们总共有$ 阅读全文
posted @ 2019-07-24 18:59 Elaine_DWL 阅读(1359) 评论(0) 推荐(0)
摘要: 梯度消失/梯度爆炸是深度学习中老生常谈的话题,这篇博客主要是对DNN中的梯度消失/梯度爆炸原因进行公式层面上的直观理解。 如上图所示,假设有2个隐层,前向传播公式: $f_1 = \sigma(w_1x+b_1),z_1 = w_1x+b_1$ $f_2 = \sigma(w_2f_1+b_2),z 阅读全文
posted @ 2019-07-24 18:16 Elaine_DWL 阅读(682) 评论(0) 推荐(0)