总访问量: PV

DataScience && DataMining && BigData

12 2017 档案

摘要:Anaconda安装 1.拿到安装包,点击安装 2.下一步 3.下一步 4.下一步 5.下一步 6.下一步 7.更改文件显示路径 ctrl+f查找 # The directory to use for notebooks and kernels. c.NotebookApp.notebook_dir 阅读全文
posted @ 2017-12-31 21:57 CJZhaoSimons 阅读(874) 评论(0) 推荐(0)
摘要:BatchNormalzation是一种解决深度神经网络层数太多,而没有办法有效前向传递的问题,因为每层的输出值都会有不同的均值和方差,所以输出数据的分布也不一样。 如果对于输入的X*W本身得到的值通过tanh激活函数已经输出为1,在通过下一层的神经元之后结果并没有什么改变,因为该值已经很大(神经网 阅读全文
posted @ 2017-12-27 17:14 CJZhaoSimons 阅读(1607) 评论(0) 推荐(0)
摘要:name_scope variable_scope 通常在RNN中有一个重复循环机制,比如在training中和test中的结构是不同的,但是在两者的参数是相同的时候,就可以用到 # the right method to reuse parameters in train rnn with tf. 阅读全文
posted @ 2017-12-27 15:49 CJZhaoSimons 阅读(307) 评论(0) 推荐(0)
摘要:AutoEncoder是包含一个压缩和解压缩的过程,属于一种无监督学习的降维技术。 神经网络接受大量信息,有时候接受的数据达到上千万,可以通过压缩 提取原图片最具有代表性的信息,压缩输入的信息量,在将缩减后的数据放入神经网络中学习,如此学习起来变得轻松了 自编码在这个时候使用,可以将自编码归为无监督 阅读全文
posted @ 2017-12-27 15:14 CJZhaoSimons 阅读(587) 评论(0) 推荐(0)
摘要:RNN RNN无法回忆起长久的记忆 LSTM (long short Term memory长短期记忆)解决梯度消失或弥散vanishing 和梯度爆炸explosion 0.9*n-->0 1.1*n >无穷大 在RNN中增加了Gate 案例 所以RNN无法回忆起长久的记忆。LSTM为了解决该问题 阅读全文
posted @ 2017-12-27 14:36 CJZhaoSimons 阅读(609) 评论(0) 推荐(0)
摘要:目前tf只能保存模型中的variable变量,整个模型还不能保存,版本1.x 保存模型代码 文件结构如下 还原模型代码 报错信息 未解决 阅读全文
posted @ 2017-12-26 19:44 CJZhaoSimons 阅读(448) 评论(0) 推荐(0)
摘要:介绍 https://www.youtube.com/watch?v=jajksuQW4mc https://www.youtube.com/watch?v=2-Ol7ZB0MmU https://www.youtube.com/watch?v=H3ciJF2eCJI 卷积神经网络 图片识别,视频分 阅读全文
posted @ 2017-12-26 19:23 CJZhaoSimons 阅读(368) 评论(0) 推荐(0)
摘要:不带dropout程序并通过tensorboard查看loss的图像 执行完之后在执行目录之下有一个log目录生成了对应的tensorboard显示文件 使用 tensorboard --logdir="logs/" --port=8011 即可在浏览器访问 带有dropout的程序并通过tenso 阅读全文
posted @ 2017-12-26 17:25 CJZhaoSimons 阅读(516) 评论(0) 推荐(0)
摘要:TF识别手写体识别分类 显示结果 阅读全文
posted @ 2017-12-26 16:47 CJZhaoSimons 阅读(366) 评论(0) 推荐(0)
摘要:Hash表算法处理海量数据处理面试题 主要针对遇到的海量数据处理问题进行分析,参考互联网上的面试题及相关处理方法,归纳为三种问题 (1)数据量大,内存小情况处理方式(分而治之+Hash映射) (2)判断元素是否在集合中(布隆过滤器+BitMap) (3)各种TOPN(存储和各种排序) 经典问题分析 阅读全文
posted @ 2017-12-26 00:04 CJZhaoSimons 阅读(4467) 评论(0) 推荐(1)
摘要:Scikit-learn技巧(拓展)总结 本文转载自:http://www.jianshu.com/p/516f009c0875 最近看了《Python数据挖掘入门与实战》,网上有说翻译地不好的,但是说实话,我觉得这本书还是相当不错的。作者Robert Layton是sklearn的开发者之一,书中 阅读全文
posted @ 2017-12-25 18:24 CJZhaoSimons 阅读(724) 评论(0) 推荐(0)
摘要:Windows下坑太多...... 在启动TensorBoard的过程,还是遇到了一些问题。接下来简单的总结一下我遇到的坑。 1、我没找不到log文件?! 答:所谓的log文件其实就是在你train过程中保存的关于你train的所有详尽信息。 文件的格式是:events.out.tfevents.1 阅读全文
posted @ 2017-12-22 18:05 CJZhaoSimons 阅读(556) 评论(0) 推荐(0)
摘要:以下算法均为通过不同的方法调整学习率learningrate的过程 GradientDescent是使用全部数据做梯度下降 在该方法中,每次更新我们都需要在整个数据集上求出所有的偏导数。因此批量梯度下降法的速度会比较慢,甚至对于较大的、内存无法容纳的数据集,该方法都无法被使用。同时,梯度下降法不能以 阅读全文
posted @ 2017-12-22 10:35 CJZhaoSimons 阅读(379) 评论(0) 推荐(0)
摘要:神经网络训练+可视化显示 显示: 阅读全文
posted @ 2017-12-21 21:30 CJZhaoSimons 阅读(1532) 评论(0) 推荐(0)
摘要:激活函数 激活函数 日常不能用线性方程所概括的东西 左图是线性方程,右图是非线性方程 当男生增加到一定程度的时候,喜欢女生的数量不可能无限制增加,更加趋于平稳 在线性基础上套了一个激活函数,使得最后能得到输出结果 常用的三种激活函数: 取值不同时得到的结果也不同 常见激活函数图形 tensorflo 阅读全文
posted @ 2017-12-21 21:11 CJZhaoSimons 阅读(807) 评论(0) 推荐(0)
摘要:1.tf的varible变量 2.tf的placeholder 3.tf1.x版本的几个变化 了解: 阅读全文
posted @ 2017-12-21 15:33 CJZhaoSimons 阅读(272) 评论(0) 推荐(0)
摘要:tf的session 阅读全文
posted @ 2017-12-21 15:04 CJZhaoSimons 阅读(331) 评论(0) 推荐(0)
摘要:tensorflow#-*- coding: utf-8 -*- # @Time : 2017/12/19 14:36 # @Author : Z # @Email : S # @File : 1.0testTF.py #用于表示取消编译时的错误信息*会出现编译错误 import os os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' imp... 阅读全文
posted @ 2017-12-21 14:55 CJZhaoSimons 阅读(256) 评论(0) 推荐(0)
摘要:为什么会出现这个问题? 为了提升CPU计算速度的。若你有支持cuda的GPU,则可以忽略这个问题,因为安装SSE4.1, SSE4.2, AVX, AVX2, FMA, 仅仅提升CPU的运算速度(大概有3倍)。 解决方法: 忽视警告,并屏蔽警告 开头输入如下: 2.进 tensorflow 官网,从 阅读全文
posted @ 2017-12-21 14:46 CJZhaoSimons 阅读(2867) 评论(0) 推荐(0)
摘要:面试题1:(答案)右偏分布 面试题2:(答案)C,正态分布的偏度为0,峰度为3 面试题3:(答案)C 面试题4:(答案)AC 相关系数 :考察两个事物(在数据里我们称之为变量)之间的相关程度。 如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解: (1)、当相关系数为0时,X和Y两变量 阅读全文
posted @ 2017-12-20 15:22 CJZhaoSimons 阅读(12942) 评论(0) 推荐(0)
摘要:需求: 一直写的代码都是从加载数据,模型训练,模型预测,模型评估走出来的,但是实际业务线上咱们肯定不能每次都来训练模型,而是应该将训练好的模型保存下来 ,如果有新数据直接套用模型就行了吧?现在问题就是怎么在实际业务中保存模型,不至于每次都来训练,在预测。 解决方案: 机器学习-训练模型的保存与恢复( 阅读全文
posted @ 2017-12-18 18:49 CJZhaoSimons 阅读(2570) 评论(0) 推荐(0)
摘要:Sklearn中解决方案 在Python的sklearn中,经常会使用分层抽样的方法,使用train_test_split方法对数据集进行切分,如若指定分层抽样则随机切分数据集的比例将会和源数据集中正负样本的比例保持一致,这是常用的一种方法。 另外在sklearn中,对数据集通常采用k则交叉验证的方 阅读全文
posted @ 2017-12-18 17:09 CJZhaoSimons 阅读(908) 评论(0) 推荐(1)
摘要:最小二乘法可以从Cost/Loss function角度去想,这是统计(机器)学习里面一个重要概念,一般建立模型就是让loss function最小,而最小二乘法可以认为是 loss function = (y_hat -y )^2的一个特例,类似的像各位说的还可以用各种距离度量来作为loss fu 阅读全文
posted @ 2017-12-18 15:12 CJZhaoSimons 阅读(4149) 评论(0) 推荐(0)
摘要:卷积算子计算方法(卷积运算) 卷积操作是对图像处理时,经常用到的一种操作。它具有增强原信号特征,并且能降低噪音的作用。 那么具体是如何计算的呢? 步骤: 1)将算子围绕中心旋转180度 2) 滑动算子,使其中心位于输入图像g的(i,j)像素上 3) 利用公式求和,得到输出图像的(i,j)像素值 (2 阅读全文
posted @ 2017-12-02 14:19 CJZhaoSimons 阅读(817) 评论(0) 推荐(0)
摘要:参考:https://github.com/AlexeyAB/darknet # 一、安装 ## linux下安装 - 在darknet目录下执行make ## windows下安装 1. 安装vs2015(略) 2. 安装opencv - https://sourceforge.net/proje 阅读全文
posted @ 2017-12-02 14:17 CJZhaoSimons 阅读(3898) 评论(0) 推荐(0)
摘要:插值:字符串,可选,默认:无 可接受的值是“无”,“最接近”,“双线性”,“双三次”, “spline16”,“spline36”,“hanning”,“hamming”,“hermite”,“kaiser” 'quadric','catrom','gaussian','bessel','mitch 阅读全文
posted @ 2017-12-02 12:40 CJZhaoSimons 阅读(1907) 评论(0) 推荐(0)