决策树原理介绍

决策树（decision tree）是一类常见的机器学习方法，目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树。

决策树的生成是一个递归的过程。在决策树的基本算法中，有三种情况会导致递归返回：（1）当前节点包含的样本全属于同一类别，无需划分；（2）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；（3）当前节点包含的样本集为空，不能划分。

划分选择

决策树学习的关键在于，在每个分裂节点处如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的“纯度”越来越高。

ID3决策树

信息增益

“信息熵”（information entropy）是度量样本集合纯度最常用的一种指标。

其中pi是S属于类别i的比例，需要注意的是底数仍然为2，原因熵是以二进制位的个数来度量编码长度，同时注意，如果目标属性具有c个可能值，那么熵最大可能为log2（c）。

已经有了熵作为衡量训练样例集合纯度的标准，现在可以定义属性分类训练数据的效力的度量标准。这个标准被称为“信息增益（information gain）”。简单的说，一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵降低(或者说，样本按照某属性划分时造成熵减少的期望,个人结合前面理解，总结为用来衡量给定的属性区分训练样例的能力)。更精确地讲，一个属性A相对样例集合S的信息增益Gain(S,A)被定义为：

C4.5决策树

增益率

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，C4.5决策树算法不直接使用信息增益，而是使用“增益率”（gain ratio）来选择最优划分属性。信息增益率的计算相关公式：

需注意的是，信息增益率对可取值数目较少的属性有所偏好，因此，C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式的方法：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

剪枝处理

剪枝（pruning）是决策树学习算法对付“过拟合”的主要手段。在决策树学习中，为了尽可能正确分类训练样本，节点划分过程不断重复，有时会造成决策树分支过多，这时就可能因训练样本学得“太好”了，以至于把训练样本自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此，可通过主动去掉一些分支来降低过拟合的风险。

决策树剪枝的基本策略有“预剪枝”和“后剪枝”。预剪枝是指在决策树生成的过程中，对每个节点在划分前先进行估计，若当前节点的划分不能带来决策树泛化性能的提升，则停止划分并将当前节点标记为叶节点；后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升，则将该子树替换为叶节点。

那如何判断决策树泛化性能是否提升呢？可以使用留出法，即预留一部书数据用作“验证集”以进行性能评估。

预剪枝

预剪枝使得决策树的很多分支都没有“展开”，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。但另一方面，有些分支的当前划分虽不能提升泛化性能，甚至可能导致泛化性能暂时下降，但在其基础上进行的后续划分却有可能导致性能显著提高；预剪枝基于“贪心”本质禁止了这些分支展开，给预剪枝决策树带来了欠拟合的风险。