第四周：卷积神经网络 part3

循环神经网络（RNN）

基本应用

·语音问答
·机器翻译
·作词、作诗
·模仿写论文
·模仿写代码
·图像理解
·视觉问答

Note：
　○ 传统神经网络不考虑上下文关系
　○ 循环神经网络考虑的核心问题——上下文关系（时序）
　○ 目标——考虑更多的上下文
　○ 循环神经网络模仿写论文、写代码，更多的是模仿其中的格式（比如公式居接下来要换行，if下面跟else等），但是读起来可能是没有逻辑、无法运行的

循环神经网络VS卷积神经网络

·传统神经网络、卷积神经网络，输入输出之间是相互独立的
·RNN可以更好的处理具有时序关系的任务
·RNN通过其循环结构引入“记忆”的概念
　○输出不仅依赖于输入，还依赖“记忆”
　○将同一个结构循环利用

RNN基本结构

隐层的数据被存入到一个“记忆”单元中。
存在“记忆”中的数据会被作为另外一个输入与原始输入一起输入到神经网络中。

两种输入：一个数据（如x1，x2）输入，一个“记忆”输入
两种输出：一个数据（如y1，y2）输出，一个“记忆”输出
一种函数：中间的计算关系

RNN的变形

小结：
·隐层状态h可以被看作是“记忆”。因为他包含了之前时间点上的相关信息
·输出y不仅由当前的输入决定，还会考虑到之前的“记忆”，由两者共同决定
·RNN在不同时刻共享同一组参数（U，W，V），极大的减小了需要训练和预估的参数量

传统RNN的问题

长短期记忆模型——LSTM

·RNN和LSTM对“记忆”的处理方式不同
·RNN的“记忆”在每个时间点都会被新的输入覆盖，但LSTM中的“记忆”是与新的输入相加
·LSTM：如果前边的输入对Ct产生了影响，那这个影响会一直存在，除非遗忘门的权重为0
　　　　解决梯度消失的问题，但是不能解决梯度爆炸问题
·小技巧：LSTM中learning rate可以被尽量的设置小

小结：
·LSTM实现了三个门计算，即遗忘门、输入门和输出门
·LSTM的一个初始化技巧是将输出门的bias置为正数（例如1或5），这样模型刚开始训练时forget gate的值接近于1，不会发生梯度消失

门控循环单元——GRU

LSTM有三个门，运算比较复杂，解决方案——>GRU

posted @ 2020-08-22 13:50 Anything781 阅读(125) 评论(0) 收藏举报

刷新页面返回顶部