随笔分类 -  机器学习

摘要:测试代码(matlab)如下: clear; load E:\dataset\USPS\USPS.mat; % data format: % Xtr n1*dim % Xte n2*dim % Ytr n1*1 % Yte n2*1 % warning: labels must range from 阅读全文
posted @ 2016-11-18 15:42 坚持不懈--成功 阅读(4931) 评论(0) 推荐(0)
摘要:1、不平衡数据分类问题 对于非平衡级分类超平面,使用不平衡SVC找出最优分类超平面,基本的思想是,我们先找到一个普通的分类超平面,自动进行校正,求出最优的分类超平面 测试代码如下: 2、回归问题 支持分类的支持向量机可以推广到解决回归问题,这种方法称为支持向量回归 支持向量分类所产生的模型仅仅依赖于 阅读全文
posted @ 2016-11-17 16:07 坚持不懈--成功 阅读(5331) 评论(0) 推荐(0)
摘要:K折交叉验证 在不浪费太多数据的情况下,精确估计真实误差而设计的,在K折交叉验证中,将原训练集拆分为样本数量为m/k的K折样本集(这里假定m/k为一整数) 对于每一折数据样本,这个算法是在其他折样本的联合样本上训练,然后由这一折样本上估计出输出的误差。最终,所有误差的平均即为真实误差的估计。 特殊情 阅读全文
posted @ 2016-11-16 15:00 坚持不懈--成功 阅读(582) 评论(0) 推荐(0)
摘要:1.分类回归树CART 随机森林是由多颗CART树组成的,下面简单叙述下回归树及生成树的算法 (1)最小二乘回归树生成算法 (2)分类树的生成 分类树可以使用基尼指数作为分类标准,至于为什么上面的指标,我们可以从信息论的角度思考。同样采样这样的分类标准会导致生成树选择最优属性时会偏向类别比较多的属性 阅读全文
posted @ 2016-10-28 16:43 坚持不懈--成功 阅读(1512) 评论(0) 推荐(0)
摘要:1.定义 标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 —-《Machine Learning》Tom M.Mitchell 2.出现过拟合的一些原因 (1)建 阅读全文
posted @ 2016-10-28 16:38 坚持不懈--成功 阅读(5411) 评论(0) 推荐(0)
摘要:1.背景 关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT地址和xgboost导读和实战 地址,希望对xgboost原理进行深入理解。 2.xgboost vs gbdt 说到xgboost,不得不说gbdt。了解gbdt可以看我这篇文章 地址,gbd 阅读全文
posted @ 2016-10-28 16:28 坚持不懈--成功 阅读(100265) 评论(1) 推荐(5)