0012.有监督学习之随机森林（Random Forest）

一、概述

随机森林：最为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forset，简称RF）拥有广泛的应用前景，从市场销售到医疗保健保险，既可以用来做市场销售模拟的建模，统计客户来源，保留和流失，也可用预测疾病的风险和病患者的易感性。

随机森林算法是一种重要的基于bagging的集成学习方法；将若干弱分类器（决策树）的分类结果进行投票选择，从而组成一个强分类器，这就是随机森林bagging的思想。

特点：

随机森林的生成过程：

1. 自助采样法（Bootstap sampling），即对于m个样本的原始训练集，每次选随机采集一个样本放入采样集，接着把该样本放回，也就是说下次采样时该样本仍有可能被采集到；

2. 两个随机性：样本的随机性（有放回），特征的随机性（无放回）。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入，是的随机森林不容易陷入过拟合，并且具有很好的抗噪声能力（比如：对缺省值不敏感）。

RF = 决策树 + Bagging + 随机属性选择

随机森林分类效果（错误率）与两个因素有关：

1. 森林中任意两棵树的相关性：相关性越大，错误率越大；

2. 树的生长参数：树越深，单颗树的分类能力越强，树的相关性也变强；

3. 选择的特征个数n‘： n‘越大，单颗树的分类能力越强，树的相关性也变强。

根据袋外误差选择最优的n‘：

对于每棵树都有一部分样本er没有被抽取到，这样的样本就被称为袋外样本，随机森林对袋外样本的预测错误率被称为袋外误差(Out-of-bag Error， OOB Error）

计算流程：对于每个样本，计算它作为OOB样本的树对它的分类情况；一投片的方式确定该样本的分类结果；将误分类样本个数占总数的比率作为随机森林的袋外误差。

随机森林的python实现（参数设置）：

n_features：推荐值为特征数量的平方根；

n_trees：森林中的树按说越多越好，但是当数量多到一定程度时，精度的提升已经不明显，但是极端消耗却很大。

随机森林的缺点：

随机森林在解决回归问题时并没有像它的分类中表现的那么好，这是因为它并不能给出一个连续型的输出。当进行回归时，随机森林不能够做出超越训练集数据范围的预测，这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合；
对于许多统计建模者来说，随机森林给人的感觉像是一个黑盒子--你几乎无法控制模型内部的运行，只能在不同的参数和随机种子之间进行尝试。

二、案例

数据库导入