随笔分类 -  数据分析挖掘

数据处理的基本流程
摘要:数据清洗 对于缺失值的处理,我们分为3类:删除数据,数据插补,不处理.数据的插值是取前后相邻几个数据的平均值作为插值,有拉格朗日插值法,牛顿插值法等. 数据规范化 数据规范化对于基于距离的挖掘算法很重要,将数据映射到0-1之间,或者-1-1之间.主要的方法有:最小-最大规范化,零-均值规范化,小数定 阅读全文
posted @ 2018-07-11 15:41 FantasyBoy 阅读(5364) 评论(0) 推荐(0)
梯度下降训练回归模型
摘要:经过5000次的训练,该模型的错误率已经很低了,可以使用该模型进行分类预测了 用第一段代码训练好的模型,进行数据的分类,场景如:是否是垃圾邮件等 阅读全文
posted @ 2018-06-21 17:12 FantasyBoy 阅读(990) 评论(0) 推荐(0)
数据挖掘三大方向回归、分类、聚类的区别及应用场景
摘要:读完python数据分析与挖掘实战,对于监督学习、非监督学习这两个概念算是明白了,这里总结下三个方向算法的优缺和使用场景 1、回归算法 回归算法是对一种数值型连续变量进行预测和建模的监督学习算法,运用在股票走势,房价走势预测上,每一个样本都有标注真值进行监督算法 1.1 线性回归 适用条件:线性回归 阅读全文
posted @ 2018-06-20 17:45 FantasyBoy 阅读(3443) 评论(0) 推荐(0)
决策树算法
摘要:上次的随机逻辑回归模型是发掘自变量和因变量的线型相关,决策树和神经网络是非线型关系变量的筛选. 用的是决策树算法中的ID3算法(基于信息熵),最终使分类后的数据集的熵最小,C4.5决策树算法利用信息增益率划分数据集,CART决策树算法是利用Gini(基尼)指数划分数据集 阅读全文
posted @ 2018-06-07 15:34 FantasyBoy 阅读(340) 评论(0) 推荐(0)
Logistic回归
摘要:适用因变量一般有1和0(是否)两种取值,表示取值为1的概率. 采用随机逻辑回归剔除自变量(剔除false),逻辑回归的本质还是一种线型模型,被筛选掉的变量不一定就跟结果没关系,可能存在非线型相关. 阅读全文
posted @ 2018-06-07 14:58 FantasyBoy 阅读(255) 评论(0) 推荐(0)
数据分析之异常值分析-箱线图
摘要:箱线图大于上界(上四分位数,Qu+1.5IQR)小于下界(下四分位数,Ql-1.5IQR)都是异常值,IQR是上四分位数据Qu和下四分位数据Ql的差距,包含一半数据,具有一定的鲁棒性,不受异常值的影响 阅读全文
posted @ 2018-05-21 14:23 FantasyBoy 阅读(2539) 评论(0) 推荐(0)
如何理解置信度/95%的置信区间
摘要:在统计学,用样本去估计总体,里面有个名称叫置信区间,95%的置信区间很多人错误理解我,我扔一百次硬币,有95次会落到区间内.95%的概率指的不是我扔硬币的结果,而是置信区间. 最一百次实验,有95%的置信区间包含了真值(真值只有一个),所以只做一次置信区间时,我们也认为这个区间是包含真值的是可信的. 阅读全文
posted @ 2018-05-13 15:56 FantasyBoy 阅读(11175) 评论(0) 推荐(0)
聚类算法(K-means聚类算法)
摘要:在数据分析挖掘过程中常用的聚类算法有1.K-Means聚类,2.K-中心点,3.系统聚类. 1.K-均值聚类在最小误差基础上将数据划分为预定的类数K(采用距离作为相似性的评价指标).每次都要遍历数据,所以大数据速度慢 2.k-中心点,不采用K-means中的平均值作为簇中心点,而是选中距离平均值最近 阅读全文
posted @ 2018-05-13 15:37 FantasyBoy 阅读(3812) 评论(0) 推荐(0)
数据标准化处理,data.mean和data.std
摘要:工作中经常遇到每个指标数据取值范围过大,为了消除数量级带来的另想,需要进行标准化处理. 阅读全文
posted @ 2018-05-12 20:03 FantasyBoy 阅读(8507) 评论(0) 推荐(0)
UNIX上安装JRE设置java-home
摘要:安装运行spark时,提醒我java home no set ,java运行环境没有设置,原来spark是scala编写,scala又是基于java. 要安装 JDK,请转至 URL http://java.sun.com/javase/downloads/index.jsp。 找到相应的 JDK 阅读全文
posted @ 2018-04-25 14:51 FantasyBoy 阅读(297) 评论(0) 推荐(0)