机器学习——决策树
1.基本流程
决策树一般包括一个根节点、若干个内部节点和若干个叶子节点;叶子节点对应于决策结果,其他每个节点则对应于一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。
决策树的基本流程:
输入:训练集

2、划分选择
我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。
(1)信息增益:信息增益越大,“纯度”越高。
(2)增益率:增益率越大,“纯度”越高。
信息增益准则对可取值数目较多的属性有所偏好,为减少不利影响,可以考虑使用增益率。
但是增益率准则对可取值数目较少的属性有偏好,因此C4.5算法首先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
(3)基尼指数:基尼指数越小,“纯度”越高。
3、剪枝处理
预剪枝:对每个结点在划分前进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶子节点;
后剪枝:先生成一颗完整的决策树,然后自底向上地对非叶节点进行考察,若将该结点对应的子树替换为叶子节点能带来决策树泛化性能的提升,则将该子树替换为叶子节点;
4、连续与缺失值
(1)连续值处理:取相邻区间的中位点作为作为候选划分点,进行评估。与离散属性不同,若当前结点划分属性为连续属性,该属性还可作为其后代结点的划分属性。
(2)缺失值处理:
缺失值处理需要解决两个问题:a.如何在属性值缺失的情况下进行划分属性选择?b.给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
前一个问题利用样本集中在属性a上没有缺失值的样本进行判断属性a的优劣。
后一个问题将在属性a上缺失的样本以不同的概率划入到不同的子结点中。
5、多变量决策树
决策树的每个非叶子节点不再是针对某个属性,而是对属性的线性组合进行测试。在多变量决策树的学习过程中,不是为每个非叶子节点寻找一个最优划分属性,而是试图建立一个合适的线性分类器。
6、外传
(1)在信息增益、增益率、基尼指数之外,人们设计了很多其他的准则,实验表明,准则对决策树尺寸有较大影响,但对泛化性能影响有限。剪枝策略对泛化性能有显著影响。
7、总结
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据。
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型。

浙公网安备 33010602011771号