第四周:卷积神经网络 part3
循环神经网络(RNN)
基本应用
·语音问答
·机器翻译
·作词、作诗
·模仿写论文
·模仿写代码
·图像理解
·视觉问答
Note:
○ 传统神经网络不考虑上下文关系
○ 循环神经网络考虑的核心问题——上下文关系(时序)
○ 目标——考虑更多的上下文
○ 循环神经网络模仿写论文、写代码,更多的是模仿其中的格式(比如公式居接下来要换行,if下面跟else等),但是读起来可能是没有逻辑、无法运行的
循环神经网络VS卷积神经网络
·传统神经网络、卷积神经网络,输入输出之间是相互独立的
·RNN可以更好的处理具有时序关系的任务
·RNN通过其循环结构引入“记忆”的概念
○输出不仅依赖于输入,还依赖“记忆”
○将同一个结构循环利用
RNN基本结构

隐层的数据被存入到一个“记忆”单元中。
存在“记忆”中的数据会被作为另外一个输入与原始输入一起输入到神经网络中。
两种输入:一个数据(如x1,x2)输入,一个“记忆”输入
两种输出:一个数据(如y1,y2)输出,一个“记忆”输出
一种函数:中间的计算关系


RNN的变形


小结:
·隐层状态h可以被看作是“记忆”。因为他包含了之前时间点上的相关信息
·输出y不仅由当前的输入决定,还会考虑到之前的“记忆”,由两者共同决定
·RNN在不同时刻共享同一组参数(U,W,V),极大的减小了需要训练和预估的参数量
传统RNN的问题

长短期记忆模型——LSTM



·RNN和LSTM对“记忆”的处理方式不同
·RNN的“记忆”在每个时间点都会被新的输入覆盖,但LSTM中的“记忆”是与新的输入相加
·LSTM:如果前边的输入对Ct产生了影响,那这个影响会一直存在,除非遗忘门的权重为0
解决梯度消失的问题,但是不能解决梯度爆炸问题
·小技巧:LSTM中learning rate可以被尽量的设置小
小结:
·LSTM实现了三个门计算,即遗忘门、输入门和输出门
·LSTM的一个初始化技巧是将输出门的bias置为正数(例如1或5),这样模型刚开始训练时forget gate的值接近于1,不会发生梯度消失
门控循环单元——GRU
LSTM有三个门,运算比较复杂,解决方案——>GRU

浙公网安备 33010602011771号