第四周:卷积神经网络 part3

循环神经网络(RNN)

基本应用

·语音问答
·机器翻译
·作词、作诗
·模仿写论文
·模仿写代码
·图像理解
·视觉问答

Note:
 ○ 传统神经网络不考虑上下文关系
 ○ 循环神经网络考虑的核心问题——上下文关系(时序)
 ○ 目标——考虑更多的上下文
 ○ 循环神经网络模仿写论文、写代码,更多的是模仿其中的格式(比如公式居接下来要换行,if下面跟else等),但是读起来可能是没有逻辑、无法运行的

循环神经网络VS卷积神经网络

·传统神经网络、卷积神经网络,输入输出之间是相互独立的
·RNN可以更好的处理具有时序关系的任务
·RNN通过其循环结构引入“记忆”的概念
 ○输出不仅依赖于输入,还依赖“记忆”
 ○将同一个结构循环利用

RNN基本结构

隐层的数据被存入到一个“记忆”单元中。
存在“记忆”中的数据会被作为另外一个输入与原始输入一起输入到神经网络中。

两种输入:一个数据(如x1,x2)输入,一个“记忆”输入
两种输出:一个数据(如y1,y2)输出,一个“记忆”输出
一种函数:中间的计算关系

RNN的变形

小结:
·隐层状态h可以被看作是“记忆”。因为他包含了之前时间点上的相关信息
·输出y不仅由当前的输入决定,还会考虑到之前的“记忆”,由两者共同决定
·RNN在不同时刻共享同一组参数(U,W,V),极大的减小了需要训练和预估的参数量

传统RNN的问题

长短期记忆模型——LSTM

·RNN和LSTM对“记忆”的处理方式不同
·RNN的“记忆”在每个时间点都会被新的输入覆盖,但LSTM中的“记忆”是与新的输入相加
·LSTM:如果前边的输入对Ct产生了影响,那这个影响会一直存在,除非遗忘门的权重为0
    解决梯度消失的问题,但是不能解决梯度爆炸问题
·小技巧:LSTM中learning rate可以被尽量的设置小

小结:
·LSTM实现了三个门计算,即遗忘门、输入门和输出门
·LSTM的一个初始化技巧是将输出门的bias置为正数(例如1或5),这样模型刚开始训练时forget gate的值接近于1,不会发生梯度消失

门控循环单元——GRU

LSTM有三个门,运算比较复杂,解决方案——>GRU

posted @ 2020-08-22 13:50  Anything781  阅读(125)  评论(0)    收藏  举报