随机森林

目录

  集成算法

  Bagging模型

  随机森林优势

  Bagging模型集成


 

集成算法

  目的:让机器学习效果更好,三个凑皮匠顶个诸葛亮的思想。

  实现思想有:

  Bagging:训练多个分类器取平均

  Boosting:从弱学习器开始加强,通过加权来进行训练

 

 返回目录

 

Bagging模型 

  思想:并行训练一堆分类器

  最典型的代表就是随机森林(训练多个决策树,过程可参考决策树相关文章)

  随机:数据采样随机,特征选择随机

  森林:多个决策树并行放在一起

 

 返回目录

 

随机森林优势 

  能够处理很高维度(feature很多)的数据,并且不用做特征选择

  在训练完后,他能够给出哪些feature比较重要

  容易做成并行化方法,速度比较快

  可以可视化展示,便于分析

  假设训练集样本有9000个,特征有ABCD。随机森林进行50次有放回抽样,最终会有一部分样本没有被抽到,没有本抽到的样本的集合称为out-of-bag,这个集合可以用来评测模型。

  如果想测特征A的重要性,可以破坏特征A的取值,比如随机一些数据代替掉A特征里的数据,然后看一下随机森林模型在out-of-bag集合里错误率提升的幅度,错误率提高越大说明特征A越重要。

 

 返回目录

 

Bagging模型集成 

  理论上越多的树效果越好,但实际上基本超过一定数量差不多上下浮动了。也要根据具体业务,不同数据可能会不同,可以通过交叉验证法来决定。

 

 返回目录

posted @ 2018-01-11 16:59  黎明程序员  阅读(391)  评论(0编辑  收藏  举报