随笔档案「2017年4月」 - rongyux

讨论LSTM和RNN梯度消失问题

摘要：1RNN为什么会有梯度消失问题（1）沿时间反向方向：t-n时刻梯度=t时刻梯度* π（W*激活函数的导数）（2）沿隐层方向方向：l-n层的梯度=l层的梯度*π（U*激活函数的导数）所以激活函数的导数和W连乘可以造成梯度消失和爆炸；由函数曲线看sigmoid的导数最大是1/4； 2LSTM可以避阅读全文

posted @ 2017-04-18 18:35 rongyux 阅读(7618) 评论(0) 推荐(0)

LSTM神经网络走读

摘要：0设计概述 RNN梯度爆炸和消失比较严重，RNN隐层只有一个状态h记录短期记忆，增加一个长期记忆状态c似乎就可以解决问题。按时间维度展开如何控制长期状态c，设计：增加三个开关，控制是否记录前一时刻的长期状态，是否把当前输入记录为长期状态单元，是否把当长期状态输出。 1前向计算输入：前一个时刻阅读全文

posted @ 2017-04-15 22:38 rongyux 阅读(633) 评论(0) 推荐(0)

循环神经网络RNN公式推导走读

摘要：０语言模型－N-Gram 语言模型就是给定句子前面部分，预测后面缺失部分ｅｇ．我昨天上学迟到了，老师批评了____。 N-Gram模型：　，对一句话切词我昨天上学迟到了，老师批评了 ____。２－N-Gram 会在语料库中找　了　后面最可能的词；３－N-Gram 会在预料库中找阅读全文

posted @ 2017-04-15 19:14 rongyux 阅读(4903) 评论(0) 推荐(1)

卷积神经网络CNN公式推导走读

摘要：0有全连接网络，为什么还需要CNN 图像处理领域的特殊性，全连接网络缺点： CNN解决办法： 1参数太多 | 局部连接 2没有利用图像之间位置的信息 | 权值共享 3网络层数限制 | 下采样：pooling，只保留重要参数，提高鲁棒性 1激活函数 Relu：图像： sigmoid图像：相比si 阅读全文

posted @ 2017-04-15 15:40 rongyux 阅读(899) 评论(0) 推荐(0)

前馈神经网络-反向传播(Back Propagation)公式推导走读

摘要：构造：输入神经元个数等于输入向量维度，输出神经元个数等于输出向量维度。（x1=(1,2,3),则需要三个输入神经元一前向后传播隐层：输出层：一般化，向量表示二反向传播 1计算梯度delta：均方误差，利用了sigmoid函数导数的有趣性。输出层梯度： --> eg. 隐层梯度： -- 阅读全文

posted @ 2017-04-15 09:51 rongyux 阅读(2348) 评论(2) 推荐(1)

EM最大期望算法-走读

摘要：基本思想：通过初始化参数P1,P2，推断出隐变量Z的概率分布（E步）；通过隐变量Z的概率分布，最大似然推断参数P1,P2 （M步）。梯度下降也可以解决隐变量估计问题，但求和项会随隐变量个数指数增长，EM方法是一种非梯度下降优化方法。阅读全文

posted @ 2017-04-08 22:42 rongyux 阅读(324) 评论(0) 推荐(0)

rongyux

04 2017 档案

公告