10 2016 档案

摘要:1.分类回归树CART 随机森林是由多颗CART树组成的,下面简单叙述下回归树及生成树的算法 (1)最小二乘回归树生成算法 (2)分类树的生成 分类树可以使用基尼指数作为分类标准,至于为什么上面的指标,我们可以从信息论的角度思考。同样采样这样的分类标准会导致生成树选择最优属性时会偏向类别比较多的属性 阅读全文
posted @ 2016-10-28 16:43 坚持不懈--成功 阅读(1503) 评论(0) 推荐(0)
摘要:1.定义 标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 —-《Machine Learning》Tom M.Mitchell 2.出现过拟合的一些原因 (1)建 阅读全文
posted @ 2016-10-28 16:38 坚持不懈--成功 阅读(5407) 评论(0) 推荐(0)
摘要:1.背景 关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT地址和xgboost导读和实战 地址,希望对xgboost原理进行深入理解。 2.xgboost vs gbdt 说到xgboost,不得不说gbdt。了解gbdt可以看我这篇文章 地址,gbd 阅读全文
posted @ 2016-10-28 16:28 坚持不懈--成功 阅读(100244) 评论(1) 推荐(5)