随笔分类 - 深度学习
摘要:1.GRU(Gated Recurrent Unit) 为了克服RNN无法远距离依赖而提出了LSTM,而GRU是LSTM的一个变体,GRU保持LSTM效果的同时,又使结构变得简单。 2.GRU结构 GRU只有两个gate,一个是reset gate,一个是update gate,update gat
阅读全文
摘要:1.RNNs 我们可以把RNNs看成一个普通网络做多次复制后叠加在一起组合起来,每一个网络都会把输出传递到下一个网络中。 把RNNs按时间步上展开,就得到了下图; 从RNNs链状结构可以容易理解到他是和序列信息相关的。 2.长时期依赖存在的问题 随着相关信息和预测信息的间隔增大,RNNs很难把他们关
阅读全文
摘要:1.为什么使用梯度下降来优化神经网络参数? 深度网络可以视为是一个复合的非线性多元函数,我们的最终目的是希望这个非线性函数很好的完成输入到输出的映射,也就是让损失函数取得最小值。所以最终问题变成了一个寻找函数最小值的问题,在数学上,很容易就想到使用梯度下降来解决。 2.梯度消失和梯度爆炸的原因 假设
阅读全文

浙公网安备 33010602011771号