数据分析挖掘 - 随笔分类 - FantasyBoy

数据处理的基本流程

摘要：数据清洗对于缺失值的处理,我们分为3类:删除数据,数据插补,不处理.数据的插值是取前后相邻几个数据的平均值作为插值,有拉格朗日插值法,牛顿插值法等. 数据规范化数据规范化对于基于距离的挖掘算法很重要,将数据映射到0-1之间,或者-1-1之间.主要的方法有:最小-最大规范化,零-均值规范化,小数定阅读全文

posted @ 2018-07-11 15:41 FantasyBoy 阅读(5364) 评论(0) 推荐(0)

梯度下降训练回归模型

摘要：经过5000次的训练,该模型的错误率已经很低了,可以使用该模型进行分类预测了用第一段代码训练好的模型,进行数据的分类,场景如:是否是垃圾邮件等阅读全文

posted @ 2018-06-21 17:12 FantasyBoy 阅读(990) 评论(0) 推荐(0)

数据挖掘三大方向回归、分类、聚类的区别及应用场景

摘要：读完python数据分析与挖掘实战，对于监督学习、非监督学习这两个概念算是明白了，这里总结下三个方向算法的优缺和使用场景 1、回归算法回归算法是对一种数值型连续变量进行预测和建模的监督学习算法，运用在股票走势，房价走势预测上，每一个样本都有标注真值进行监督算法 1.1 线性回归适用条件：线性回归阅读全文

posted @ 2018-06-20 17:45 FantasyBoy 阅读(3443) 评论(0) 推荐(0)

决策树算法

摘要：上次的随机逻辑回归模型是发掘自变量和因变量的线型相关,决策树和神经网络是非线型关系变量的筛选. 用的是决策树算法中的ID3算法(基于信息熵),最终使分类后的数据集的熵最小,C4.5决策树算法利用信息增益率划分数据集,CART决策树算法是利用Gini(基尼)指数划分数据集阅读全文

posted @ 2018-06-07 15:34 FantasyBoy 阅读(340) 评论(0) 推荐(0)

Logistic回归

摘要：适用因变量一般有1和0(是否)两种取值,表示取值为1的概率. 采用随机逻辑回归剔除自变量(剔除false),逻辑回归的本质还是一种线型模型,被筛选掉的变量不一定就跟结果没关系,可能存在非线型相关. 阅读全文

posted @ 2018-06-07 14:58 FantasyBoy 阅读(255) 评论(0) 推荐(0)

数据分析之异常值分析-箱线图

摘要：箱线图大于上界(上四分位数,Qu+1.5IQR)小于下界(下四分位数,Ql-1.5IQR)都是异常值,IQR是上四分位数据Qu和下四分位数据Ql的差距,包含一半数据,具有一定的鲁棒性,不受异常值的影响阅读全文

posted @ 2018-05-21 14:23 FantasyBoy 阅读(2539) 评论(0) 推荐(0)

如何理解置信度/95%的置信区间

摘要：在统计学,用样本去估计总体,里面有个名称叫置信区间,95%的置信区间很多人错误理解我,我扔一百次硬币,有95次会落到区间内.95%的概率指的不是我扔硬币的结果,而是置信区间. 最一百次实验,有95%的置信区间包含了真值(真值只有一个),所以只做一次置信区间时,我们也认为这个区间是包含真值的是可信的. 阅读全文

posted @ 2018-05-13 15:56 FantasyBoy 阅读(11175) 评论(0) 推荐(0)

聚类算法(K-means聚类算法)

摘要：在数据分析挖掘过程中常用的聚类算法有1.K-Means聚类,2.K-中心点,3.系统聚类. 1.K-均值聚类在最小误差基础上将数据划分为预定的类数K(采用距离作为相似性的评价指标).每次都要遍历数据,所以大数据速度慢 2.k-中心点,不采用K-means中的平均值作为簇中心点,而是选中距离平均值最近阅读全文

posted @ 2018-05-13 15:37 FantasyBoy 阅读(3812) 评论(0) 推荐(0)

数据标准化处理,data.mean和data.std

摘要：工作中经常遇到每个指标数据取值范围过大,为了消除数量级带来的另想,需要进行标准化处理. 阅读全文

posted @ 2018-05-12 20:03 FantasyBoy 阅读(8507) 评论(0) 推荐(0)

UNIX上安装JRE设置java-home

摘要：安装运行spark时,提醒我java home no set ,java运行环境没有设置,原来spark是scala编写,scala又是基于java. 要安装 JDK，请转至 URL http://java.sun.com/javase/downloads/index.jsp。找到相应的 JDK 阅读全文

posted @ 2018-04-25 14:51 FantasyBoy 阅读(297) 评论(0) 推荐(0)

随笔分类 - 数据分析挖掘