LSTM神经网络走读
0设计概述
RNN梯度爆炸和消失比较严重,RNN隐层只有一个状态h记录短期记忆,增加一个长期记忆状态c似乎就可以解决问题。
如何控制长期状态c,设计:增加三个开关,控制是否记录前一时刻的长期状态,是否把当前输入记录为长期状态单元 ,是否把当长期状态输出。
1前向计算
输入:前一个时刻的状态单元Ct-1,前一时刻的输出Ht-1,当前时刻的输入Xt;
输出:当前时刻的状态单元Ct,当前时刻的最终输出Ht。
1.1遗忘门:上一时刻的状态单元有多少保留到当前时刻![]()
1.2输入门:当前时刻输入x有多少保留到状态单元 ![]()
1.3当前输入的状态单元 :![]()
1.4计算当前时刻状态单元 :![]()
遗忘门*前一时刻状态单元 +输入门*当前输入状态
-------------------------------------------------------------------------------------------------------
1.5输出门:控制当前时刻状态单元 对当前输出有多少影响![]()
1.6 最终输出:由状态单元和输出门共同决定![]()
2训练
原理与bp同,每个神经元多了五个参数f,i,c,o,h:
LSTM需要学习的参数总共有八组:输入门,遗忘门,输出门和状态单元的权重矩阵W和偏置b
像bp一样,借助netj,不过这里是三个门的netj:
梯度为
其中netj为![]()
2.1沿时间维度:
计算t-1时刻的梯度(第一项是t时刻的梯度),主要计算第二项:![]()
由LSTM公式:![]()
由全导数公式:![]()
可拆开项,求得
和![]()
带入求得:![]()
带入求得由t时刻传递任意k时刻的误差:![]()
2.2沿上一层:
l层与l-1层的梯度关系:![]()
全导数公式:
具体过程是分开每项计算:
计算W:
计算偏置b
3GRU (Gated Recurrent Unit)
相对于LSTM,有两个改动:
1把遗忘门,输入门和输出门改为两个门:更新门z和重置门r;
2将单元状态和输出改为一个状态:h
备注:
激活函数tanh和sigmoid的导函数都是原函数的函数:
参考:相关网络博客及文献