04 2017 档案

摘要:1RNN为什么会有梯度消失问题 (1)沿时间反向方向:t-n时刻梯度=t时刻梯度* π(W*激活函数的导数) (2)沿隐层方向方向:l-n层的梯度=l层的梯度*π(U*激活函数的导数) 所以激活函数的导数和W连乘可以造成梯度消失和爆炸;由函数曲线看sigmoid的导数最大是1/4; 2LSTM可以避 阅读全文
posted @ 2017-04-18 18:35 rongyux 阅读(7612) 评论(0) 推荐(0)
摘要:0设计概述 RNN梯度爆炸和消失比较严重,RNN隐层只有一个状态h记录短期记忆,增加一个长期记忆状态c似乎就可以解决问题。 按时间维度展开 如何控制长期状态c,设计:增加三个开关,控制是否记录前一时刻的长期状态,是否把当前输入记录为长期状态单元 ,是否把当长期状态输出。 1前向计算 输入:前一个时刻 阅读全文
posted @ 2017-04-15 22:38 rongyux 阅读(630) 评论(0) 推荐(0)
摘要:0语言模型-N-Gram 语言模型就是给定句子前面部分,预测后面缺失部分 eg.我昨天上学迟到了,老师批评了____。 N-Gram模型: ,对一句话切词 我 昨天 上学 迟到 了 ,老师 批评 了 ____。 2-N-Gram 会在语料库中找 了 后面最可能的词; 3-N-Gram 会在预料库中找 阅读全文
posted @ 2017-04-15 19:14 rongyux 阅读(4898) 评论(0) 推荐(1)
摘要:0有全连接网络,为什么还需要CNN 图像处理领域的特殊性, 全连接网络缺点: CNN解决办法: 1参数太多 | 局部连接 2没有利用图像之间位置的信息 | 权值共享 3网络层数限制 | 下采样:pooling,只保留重要参数,提高鲁棒性 1激活函数 Relu: 图像: sigmoid图像: 相比si 阅读全文
posted @ 2017-04-15 15:40 rongyux 阅读(897) 评论(0) 推荐(0)
摘要:构造:输入神经元个数等于输入向量维度,输出神经元个数等于输出向量维度。(x1=(1,2,3),则需要三个输入神经元 一 前向后传播 隐层: 输出层: 一般化,向量表示 二 反向传播 1计算梯度delta:均方误差,利用了sigmoid函数导数的有趣性。 输出层梯度: --> eg. 隐层梯度: -- 阅读全文
posted @ 2017-04-15 09:51 rongyux 阅读(2335) 评论(2) 推荐(1)
摘要:基本思想: 通过初始化参数P1,P2,推断出隐变量Z的概率分布(E步); 通过隐变量Z的概率分布,最大似然推断参数P1,P2 (M步)。 梯度下降也可以解决隐变量估计问题,但求和项会随隐变量个数指数增长,EM方法是一种非梯度下降优化方法。 阅读全文
posted @ 2017-04-08 22:42 rongyux 阅读(316) 评论(0) 推荐(0)