// // // //

2019年3月13日

摘要: dropout 是 regularization 方法,在rnn中使用方法不同于cnn 对于rnn的部分不进行dropout,也就是说从t-1时候的状态传递到t时刻进行计算时,这个中间不进行memory的dropout;仅在同一个t时刻中,多层cell之间传递信息的时候进行dropout。 因此,我 阅读全文
posted @ 2019-03-13 11:42 努力的孔子 阅读(986) 评论(0) 推荐(0) 编辑
 
摘要: 优化器可以通俗的理解成梯度下降那一套流程。 梯度下降 基本流程 a. 损失函数 b. 求导,计算梯度 c. 更新参数 d. 迭代下一批样本 可以对照着理解tf。 tf 优化器 正常使用流程 a. 创建优化器(也就是选择优化方法,只是选择方法,其他什么也没做) b. 指定损失函数和可优化参数 c. m 阅读全文
posted @ 2019-03-13 11:07 努力的孔子 阅读(799) 评论(0) 推荐(0) 编辑
 

2019年3月12日

摘要: cross entropy 交叉熵,tensorflow 对 cross entropy 进行了集成: 1. 二分类和多分类公式集成,共用一个 API; p(x) 真实标签,q(x) 预测概率; 2. 把 sigmoid 、softmax 等集成到 cross entropy 中; 正常情况下,神经 阅读全文
posted @ 2019-03-12 17:39 努力的孔子 阅读(868) 评论(0) 推荐(0) 编辑
 

2019年3月8日

摘要: 基础的LSTM模型,单隐层,隐层单神经元,而实际中一般需要更为复杂的网络结构, 下面借用手写数字的经典案例构造比较复杂的LSTM模型,并用代码实现。 单隐层,隐层多神经元 # -*- coding:utf-8 -*- import tensorflow as tf from tensorflow.e 阅读全文
posted @ 2019-03-08 15:52 努力的孔子 阅读(912) 评论(0) 推荐(0) 编辑
 

2019年3月7日

摘要: 1. xrange:python3 中取消了range函数,把python2中的xrange重新命名为range,所以在python3中直接用range就行。 2. print:python3中print必须带括号,python2中可有可无。 3. python3 竟然可以用中文做变量名 阅读全文
posted @ 2019-03-07 17:49 努力的孔子 阅读(761) 评论(0) 推荐(0) 编辑
 
摘要: 玩python很多年,喜欢探索各种方向,也经常被版本搞的很蛋疼,于是... 多版本共存 声明:电脑默认python2,因为我本身是用python2的,为了方便玩tf,才装的python3 1. 安装python3 2. 设置环境变量-path-python3的可执行文件地址 3. 把python3的 阅读全文
posted @ 2019-03-07 16:09 努力的孔子 阅读(309) 评论(0) 推荐(0) 编辑
 

2019年3月6日

摘要: 之前在几篇博客中说到了权重共享,但都觉得不够全面,这里做个专题,以后有新的理解都在此更新。 1. 减少运算只是锦上添花 之前说到权重共享可以减少运算,是的,但这样说好像是可有可无,只是运算量大小的问题,其实不是可有可无的。 2. 权重共享的本质是特征提取 之前说到权重就是模板,我们按照一定的模板来与 阅读全文
posted @ 2019-03-06 20:01 努力的孔子 阅读(2542) 评论(0) 推荐(0) 编辑
 
摘要: LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。 LSTM能够很大程度上缓解长期依赖的问题。 LSTM的形象描述 RNN是傻子式的记忆,把所有的事情都记下来,这很容易记忆混乱。 LSTM不同的地 阅读全文
posted @ 2019-03-06 19:57 努力的孔子 阅读(1090) 评论(0) 推荐(0) 编辑
 
摘要: 首先明确一下,本文需要对RNN有一定的了解,而且本文只针对标准的网络结构,旨在彻底搞清楚反向传播和BPTT。 反向传播形象描述 什么是反向传播?传播的是什么?传播的是误差,根据误差进行调整。 举个例子:你去买苹果,你说,老板,来20块钱苹果(目标,真实值),老板开始往袋子里装苹果,感觉差不多了(预测 阅读全文
posted @ 2019-03-06 12:53 努力的孔子 阅读(3649) 评论(0) 推荐(0) 编辑
 

2019年3月4日

摘要: 神经网络的反向传播到底是个什么样的过程?今天就用链式求导揭开这个黑盒子。 这对于理解和设计神经网络很有帮助。 我们使用一个简单的逻辑回归的例子 这里绿色是前向计算,褐红色是反向传播。 0.73是最终输出,1是误差。 可以看到整个计算流程就是上面那个逻辑回归表达式。 好了,误差有了,开始反向传播吧 很 阅读全文
posted @ 2019-03-04 18:13 努力的孔子 阅读(3201) 评论(0) 推荐(0) 编辑