Adaboost、RandomFrest、GBRT的区别

Adaboost、RandomFrest、GBRT都是基于决策树的组合算法

Adaboost是通过迭代地学习每一个基分类器，每次迭代中，把上一次错分类的数据权值增大，正确分类的数据权值减小，然后将基分类器的线性组合作为一个强分类器，同时给分类误差率较小的基本分类器以大的权值，给分类误差率较大的基分类器以小的权重值。

Adaboost使用的是自适应的方法，其中概率分布式变化的，关注的是难分类的样本。

随机森林RandomForest算法通过随机的方式建立一个森林，森林里的树相互独立。在新样本进来时，采用投票抉择出其所属的类别（分类问题）

在建树的过程中，有两点需要注意，即采样与完全分裂。随机森林不仅对样本进行抽样，还对变量进行抽样。

RF对输入的数据采用有放回的方式获取N个样本（行采样），这样使得在训练的时候，每一棵树的输入样本都不是全部的样本，相对不容易出现over-fitting过拟合，然后从M个feature特征中，选择m个(m << M)（列采样）；之后就是对采样之后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面的所有样本的都是指向的同一个类别，分裂的办法是：采用上面说的列采样的过程从这m个属性中采用某种策略（比如说信息增益）来选择1个属性作为该节点的分裂属性

RF的两个随机采样的过程保证了随机性，所以就算不剪枝也不会出现over-fitting。随机森林的分类准确率可以与adaboost媲美。它对噪声数据更加鲁棒，运行速度比adaboost也快得多。

梯度提升树的每一次计算都是为了减少上一次的残差(residual)，而为了减少这些残差，可以在残差减少的梯度(Gradient)方向上建立一个新模型。所以说，在Gradient Boost中，每个新模型的建立是为了使得先前模型残差往梯度方向减少

摘自：http://blog.csdn.net/dream_angel_z/article/details/48085889

posted @ 2017-08-18 16:03 肖云阅读(631) 评论(0) 收藏举报

刷新页面返回顶部

肖云

Adaboost、RandomFrest、GBRT的区别

公告