2018年12月4日

序列模型(5)-----双向神经网络(BRNN)和深层循环神经网络(Deep RNN)

摘要: 一、双向循环神经网络BRNN 采用BRNN原因: 双向RNN,即可以从过去的时间点获取记忆,又可以从未来的时间点获取信息。为什么要获取未来的信息呢? 判断下面句子中Teddy是否是人名,如果只从前面两个词是无法得知Teddy是否是人名,如果能有后面的信息就很好判断了,这就需要用的双向循环神经网络。 阅读全文

posted @ 2018-12-04 20:14 吱吱了了 阅读(8295) 评论(0) 推荐(0)

序列模型(4)----门控循环单元(GRU)

摘要: 一、GRU 其中, rt表示重置门,zt表示更新门。 重置门决定是否将之前的状态忘记。(作用相当于合并了 LSTM 中的遗忘门和传入门) 当rt趋于0的时候,前一个时刻的状态信息ht−1会被忘掉,隐藏状态h^t会被重置为当前输入的信息。 更新门决定是否要将隐藏状态更新为新的状态h^t(作用相当于 L 阅读全文

posted @ 2018-12-04 19:28 吱吱了了 阅读(1514) 评论(0) 推荐(0)

序列模型(3)---LSTM(长短时记忆)

摘要: 摘自https://www.cnblogs.com/pinard/p/6519110.html 一、RNN回顾 略去上面三层,即o,L,y,则RNN的模型可以简化成如下图的形式: 二、LSTM模型结构: 整体模型: 由于RNN梯度消失的问题,大牛们对于序列索引位置t的隐藏结构做了改进,可以说通过一些 阅读全文

posted @ 2018-12-04 19:10 吱吱了了 阅读(2469) 评论(0) 推荐(0)

序列模型(2)-----循环神经网络RNN

摘要: 一、RNN的作用和粗略介绍: RNN可解决的问题: 训练样本输入是连续的序列,且序列的长短不一,比如基于时间的序列:一段段连续的语音,一段段连续的手写文字。这些序列比较长,且长度不一,比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。 T个时间步: 我们先来看单个RNN cell: 简 阅读全文

posted @ 2018-12-04 16:23 吱吱了了 阅读(646) 评论(0) 推荐(0)

序列模型(1)----简单介绍

摘要: 一、为什么选择序列模型 (1)序列模型广泛应用于语音识别【多对多】,音乐生成【一对多】,情感分析【多对一】,DNA序列分析,机器翻译【多对多,个数不同】,视频行为识别,命名实体识别等众多领域。 (2)上面那些问题可以看成使用(x,y)作为训练集的监督学习,但是输入与输出的对应关系有非常多的组合,比如 阅读全文

posted @ 2018-12-04 14:36 吱吱了了 阅读(549) 评论(0) 推荐(0)

梯度消失、爆炸原因及其解决方法

摘要: 一、梯度不稳定问题: 什么是梯度不稳定问题:深度神经网络中的梯度不稳定性,前面层中的梯度或会消失,或会爆炸。 原因:前面层上的梯度是来自于后面层上梯度的乘乘积。当存在过多的层次时,就出现了内在本质上的不稳定场景,如梯度消失和梯度爆炸。 二、梯度消失(vanishing gradient proble 阅读全文

posted @ 2018-12-04 14:29 吱吱了了 阅读(2947) 评论(0) 推荐(0)

导航