摘要: 1.GRU(Gated Recurrent Unit) 为了克服RNN无法远距离依赖而提出了LSTM,而GRU是LSTM的一个变体,GRU保持LSTM效果的同时,又使结构变得简单。 2.GRU结构 GRU只有两个gate,一个是reset gate,一个是update gate,update gat 阅读全文
posted @ 2019-11-07 10:31 大大大大芋圆 阅读(1136) 评论(0) 推荐(0) 编辑
摘要: 1.RNNs 我们可以把RNNs看成一个普通网络做多次复制后叠加在一起组合起来,每一个网络都会把输出传递到下一个网络中。 把RNNs按时间步上展开,就得到了下图; 从RNNs链状结构可以容易理解到他是和序列信息相关的。 2.长时期依赖存在的问题 随着相关信息和预测信息的间隔增大,RNNs很难把他们关 阅读全文
posted @ 2019-11-04 23:47 大大大大芋圆 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 1.为什么使用梯度下降来优化神经网络参数? 深度网络可以视为是一个复合的非线性多元函数,我们的最终目的是希望这个非线性函数很好的完成输入到输出的映射,也就是让损失函数取得最小值。所以最终问题变成了一个寻找函数最小值的问题,在数学上,很容易就想到使用梯度下降来解决。 2.梯度消失和梯度爆炸的原因 假设 阅读全文
posted @ 2019-11-04 16:21 大大大大芋圆 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 一.网络结构 AlexNet由5层卷积层和3层全连接层组成。 论文中是把网络放在两个GPU上进行,为了方便我们仅考虑一个GPU的情况。 上图中的输入是224×224224×224,不过经过计算(224−11)/4=54.75(224−11)/4=54.75并不是论文中的55×5555×55,而使用2 阅读全文
posted @ 2019-10-31 12:09 大大大大芋圆 阅读(963) 评论(0) 推荐(0) 编辑
摘要: 极大似然估计的原理,先用一张图片来说明 总结起来,极大似然估计的目的:就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。 通过若干次试验,观察其结果,利用试验结果的某个参数值能够使样本出现的概率最大,称为极大似然估计。 由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来 阅读全文
posted @ 2019-10-16 12:33 大大大大芋圆 阅读(547) 评论(0) 推荐(0) 编辑