数据处理的基本流程
    
            
摘要:数据清洗 对于缺失值的处理,我们分为3类:删除数据,数据插补,不处理.数据的插值是取前后相邻几个数据的平均值作为插值,有拉格朗日插值法,牛顿插值法等. 数据规范化 数据规范化对于基于距离的挖掘算法很重要,将数据映射到0-1之间,或者-1-1之间.主要的方法有:最小-最大规范化,零-均值规范化,小数定
        
阅读全文
                posted @ 
2018-07-11 15:41 
FantasyBoy
        
阅读(5364) 
         
        推荐(0)     
             
            
            
    梯度下降训练回归模型
    
            
摘要:经过5000次的训练,该模型的错误率已经很低了,可以使用该模型进行分类预测了 用第一段代码训练好的模型,进行数据的分类,场景如:是否是垃圾邮件等
        
阅读全文
                posted @ 
2018-06-21 17:12 
FantasyBoy
        
阅读(990) 
         
        推荐(0)     
             
            
            
    数据挖掘三大方向回归、分类、聚类的区别及应用场景
    
            
摘要:读完python数据分析与挖掘实战,对于监督学习、非监督学习这两个概念算是明白了,这里总结下三个方向算法的优缺和使用场景 1、回归算法 回归算法是对一种数值型连续变量进行预测和建模的监督学习算法,运用在股票走势,房价走势预测上,每一个样本都有标注真值进行监督算法 1.1 线性回归 适用条件:线性回归
        
阅读全文
                posted @ 
2018-06-20 17:45 
FantasyBoy
        
阅读(3443) 
         
        推荐(0)     
             
            
            
    决策树算法
    
            
摘要:上次的随机逻辑回归模型是发掘自变量和因变量的线型相关,决策树和神经网络是非线型关系变量的筛选. 用的是决策树算法中的ID3算法(基于信息熵),最终使分类后的数据集的熵最小,C4.5决策树算法利用信息增益率划分数据集,CART决策树算法是利用Gini(基尼)指数划分数据集
        
阅读全文
                posted @ 
2018-06-07 15:34 
FantasyBoy
        
阅读(340) 
         
        推荐(0)     
             
            
            
    Logistic回归
    
            
摘要:适用因变量一般有1和0(是否)两种取值,表示取值为1的概率. 采用随机逻辑回归剔除自变量(剔除false),逻辑回归的本质还是一种线型模型,被筛选掉的变量不一定就跟结果没关系,可能存在非线型相关.
        
阅读全文
                posted @ 
2018-06-07 14:58 
FantasyBoy
        
阅读(255) 
         
        推荐(0)     
             
            
            
    数据分析之异常值分析-箱线图
    
            
摘要:箱线图大于上界(上四分位数,Qu+1.5IQR)小于下界(下四分位数,Ql-1.5IQR)都是异常值,IQR是上四分位数据Qu和下四分位数据Ql的差距,包含一半数据,具有一定的鲁棒性,不受异常值的影响
        
阅读全文
                posted @ 
2018-05-21 14:23 
FantasyBoy
        
阅读(2539) 
         
        推荐(0)     
             
            
            
    如何理解置信度/95%的置信区间
    
            
摘要:在统计学,用样本去估计总体,里面有个名称叫置信区间,95%的置信区间很多人错误理解我,我扔一百次硬币,有95次会落到区间内.95%的概率指的不是我扔硬币的结果,而是置信区间. 最一百次实验,有95%的置信区间包含了真值(真值只有一个),所以只做一次置信区间时,我们也认为这个区间是包含真值的是可信的.
        
阅读全文
                posted @ 
2018-05-13 15:56 
FantasyBoy
        
阅读(11175) 
         
        推荐(0)     
             
            
            
    聚类算法(K-means聚类算法)
    
            
摘要:在数据分析挖掘过程中常用的聚类算法有1.K-Means聚类,2.K-中心点,3.系统聚类. 1.K-均值聚类在最小误差基础上将数据划分为预定的类数K(采用距离作为相似性的评价指标).每次都要遍历数据,所以大数据速度慢 2.k-中心点,不采用K-means中的平均值作为簇中心点,而是选中距离平均值最近
        
阅读全文
                posted @ 
2018-05-13 15:37 
FantasyBoy
        
阅读(3812) 
         
        推荐(0)     
             
            
            
    数据标准化处理,data.mean和data.std
    
            
摘要:工作中经常遇到每个指标数据取值范围过大,为了消除数量级带来的另想,需要进行标准化处理.
        
阅读全文
                posted @ 
2018-05-12 20:03 
FantasyBoy
        
阅读(8507) 
         
        推荐(0)     
             
            
            
    UNIX上安装JRE设置java-home
    
            
摘要:安装运行spark时,提醒我java home no set ,java运行环境没有设置,原来spark是scala编写,scala又是基于java. 要安装 JDK,请转至 URL http://java.sun.com/javase/downloads/index.jsp。 找到相应的 JDK 
        
阅读全文
                posted @ 
2018-04-25 14:51 
FantasyBoy
        
阅读(297) 
         
        推荐(0)