集成学习-Adaboost 参数选择
    
            
摘要:先看下ababoost和决策树效果对比 输出学习曲线 分析:随着样本数的增加,单决策树的预测精度稳定在0.5左右,是个弱分类器,而adaboost预测精度在0.85左右,明显高于单决策树,是个强分类器。 参数选择 上面的模型使用的是默认参数,其实还有优化的空间。 在集成学习中,参数调优一般是先选择框
        
阅读全文
 
        
            
    集成学习-Adaboost
    
            
摘要:Adaboost 中文名叫自适应提升算法,是一种boosting算法。 boosting算法的基本思想 对于一个复杂任务来说,单个专家的决策过于片面,需要集合多个专家的决策得到最终的决策,通俗讲就是三个臭皮匠顶个诸葛亮。 对于给定的数据集,学习到一个较弱的分类器比学习到一个强分类器容易的多,boos
        
阅读全文
 
        
            
    数据编码
    
            
摘要:把文本型、字符型数据转换成数值型的方法 标签编码(LabelEncode) 从名字上看,这是对标签进行编码,实际上可以对任何数据进行编码 作法很简单,就是将序列中不同值给个序号,以代表这个字符型数据。 示例代码 from sklearn.preprocessing import LabelEncod
        
阅读全文
 
        
            
    缺失值处理
    
            
摘要:缺失值几种处理方式:不处理,删除,插值,前两种没什么说的,说说插值吧。 插值有多种方式 1. 均值、中位数、众数、固定值、插值 2. 邻近插值 3. 回归方法插值:曲线拟合 4. 插值法:专门插值的方法,如拉格朗日插值法,牛顿插值法,分段插值,样条插值等 回归是有误差的插值,,插值法是没有误差的插值
        
阅读全文
 
        
            
    数据规范化
    
            
摘要:数据规范化就是消除量纲的影响,这点很重要。 对算法的作用 在以梯度和矩阵为核心的算法中,譬如逻辑回归、神经网络、svm,规范化能加快求解速度, 在以距离计算为核心的算法中,譬如KNN、Kmeans,规范化能提高模型的精度, 在树模型中,无需规范化。 概述 数据规范化有很多种方法,总体可以分为线性的和
        
阅读全文
 
        
            
    类别不均衡
    
            
摘要:类别不均衡问题就是不同类别的样本数差别很大,很容易理解,不再赘述。 这种情况会导致模型的误判,比如2分类,正例998,反例2,那么即使我们所有的样本都识别为正例,正确率高达99.8%,然而并没有什么卵用。 对于类别不均衡问题,大体上主要有两种,即以数据为中心驱动和以算法为中心的解决方案。 数据策略 
        
阅读全文
 
        
            
    参数优化-学习曲线
    
            
摘要:验证曲线是调节学习器的参数的,学习曲线是用来调节训练样本大小的。 从理论上来讲,如果数据“同质”,当数据量到达一定程度时,学习器可以学到所有的“特征”,继续增加样本没有作用。 那么到底多少样本是合适的呢? 做个实验 逐渐增大训练样本量,同时判断训练集和测试集的准确率,看看会发生什么 1. 首先从训练
        
阅读全文
 
        
            
    参数优化-验证曲线
    
            
摘要:通过验证一个学习器在训练集和测试集上的表现,来确定模型是否合适,参数是否合适。 如果训练集和测试集得分都很低,说明学习器不合适。 如果训练集得分高,测试集得分低,模型过拟合,训练集得分低,测试集得分高,不太可能。 示例代码 输出 参数gamma的调节 很小时,训练集和测试集得分都低,欠拟合 增大时,
        
阅读全文
 
        
            
    参数优化-API
    
            
摘要:网格搜索 对给定参数进行组合,用某标准进行评价,只适合小数据集 参数 estimator:一个学习器对象,它必须有.fit方法用于学习,.predict方法用于预测,.score方法用于评分 param_grid:字典或者字典的列表,每个字典是学习器的一个参数,key是参数名,value是备选参数序
        
阅读全文
 
        
            
    参数优化-偏差与方差
    
            
摘要:我们知道训练模型时经常会有一些误差,我们要想弥补这些误差,首先要搞清楚这些误差是怎么产生的。 误差的分解 假设我们要预测的模型为 y=f(x),但是通常数据都会有一些噪音,我们的数据集为y=f(x)+noise,通常我们会假设数据服从正态分布,也就是噪音会均分分布在曲线两侧,所以噪音和为0。 假设有
        
阅读全文
 
        
            
    决策树-回归
    
            
摘要:决策树常用于分类问题,但是也能解决回归问题。 在回归问题中,决策树只能使用cart决策树,而cart决策树,既可以分类,也可以回归。 所以我们说的回归树就是指cart树。 为什么只能是cart树 1. 回想下id3,分裂后需要计算每个类别占总样本的比例,回归哪来的类别,c4.5也一样 2. 回归问题
        
阅读全文
 
        
            
    集成学习-xgboost
    
            
摘要:xgboost是个准确率很高的集成学习框架,在很多比赛中成绩优异。 大多数的集成学习都使用决策树作为基分类器,主要是因为本身要训练多个分类器,而决策树速度很快,总体时间相对较少。 决策树 在讲xgboost之前,先描述一下决策树,后面要用到这些符号 决策树是把输入x映射到一个叶节点中,这个过程我们记
        
阅读全文
 
        
            
    softmax与多分类
    
            
摘要:sotfmax 函数在机器学习和深度学习中有着广泛的应用, 主要用于多分类问题。 softmax 函数 1. 定义 假定数组V,那么第i个元素的softmax值为 也就是该元素的指数 除以 所有元素的指数和,取指数是为了使差别更大。 于是该数组的每个元素被压缩到(0,1),并且和为1,其实就变成了概
        
阅读全文
 
        
            
    决策树-缺失值处理
    
            
摘要:缺失值算是决策树里处理起来比较麻烦的了,其他简单的我就不发布了。
        
阅读全文