随机森林

目录

　　集成算法

　　Bagging模型

　　随机森林优势

　　Bagging模型集成

集成算法

　　目的：让机器学习效果更好，三个凑皮匠顶个诸葛亮的思想。

　　实现思想有：

　　Bagging：训练多个分类器取平均

　　Boosting：从弱学习器开始加强，通过加权来进行训练

Bagging模型

　　思想：并行训练一堆分类器

　　最典型的代表就是随机森林（训练多个决策树，过程可参考决策树相关文章）

　　随机：数据采样随机，特征选择随机

　　森林：多个决策树并行放在一起

随机森林优势

　　能够处理很高维度（feature很多）的数据，并且不用做特征选择

　　在训练完后，他能够给出哪些feature比较重要

　　容易做成并行化方法，速度比较快

　　可以可视化展示，便于分析

　　假设训练集样本有9000个，特征有A、B、C、D。随机森林进行50次有放回抽样，最终会有一部分样本没有被抽到，没有本抽到的样本的集合称为out-of-bag，这个集合可以用来评测模型。

　　如果想测特征A的重要性，可以破坏特征A的取值，比如随机一些数据代替掉A特征里的数据，然后看一下随机森林模型在out-of-bag集合里错误率提升的幅度，错误率提高越大说明特征A越重要。

Bagging模型集成

　　理论上越多的树效果越好，但实际上基本超过一定数量差不多上下浮动了。也要根据具体业务，不同数据可能会不同，可以通过交叉验证法来决定。

posted @ 2018-01-11 16:59 黎明程序员阅读(391) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部