决策树
一、关于决策树
1.1 概念
决策树是将一个大问题进行拆解,分而治之。拆解,分裂的过程构成了一个树的形状。
1.2、学习的过程
通过训练样本的分析来确定划分属性。
1.3、预测的过程
从根节点到叶子节点的路径过程。
1.4、策略
分而治之,自根至叶的递归过程。
1.5、树的停止条件
- a、节点中样本全是同类,无需划分 -> 最好分,是谁就是谁
- b、属性不够用,或所有样本在所有属性上取值相同,无法划分 -> 谁多就是谁,后验概率
- c、空集,训练集中未出现过的样本 ->父节点谁多就是谁, 先验概率
1.6、构建决策树的过程

二、核心
决策树的核心是如何从属性集中选择最优划分属性。
2.1、熵
信息熵,纯度指标,值越小,纯度越高,不纯度越低

2.2、信息增益
以信息熵为基础,计算当前划分对信息熵所造成的变化,用划分前的信息熵 - 划分后的信息熵。
2.3、ID3
用的信息增益,为了降低信息熵,对取值数目较多的属性有所偏好。
有明显弱点,例如,考虑将 “编号”作为一个属性。

2.4、C4.5
用的信息增益率

启发式:先从候选划分属性中找出信息增益高于平均水平的,再从中选取增益率最高的。
2.5、基尼指数 (Gini index)
反映了从D中随机抽取两个样例,其类别不一致的概率。在候选属性集合中,选取那个使划分后基尼指数最小的属性。

三、剪枝
2.1、剪枝影响
划分选择的各种准则虽然对决策树的尺寸有较大影响,但对泛化性能的影响很有限。例如信息增益与基尼指数产生的结果,仅在月2%的情况下不同。
剪枝方法和程度对泛化性能的影响更为显著。
剪枝相当于减少了过拟合,是对付过拟合的主要手段。
2.2、剪枝方法
预剪枝 和 后剪枝
a、预剪枝: 提前终止某些分支的生长。
b、后剪枝:生成一颗完全树,再 “回头” 剪枝。
四、缺失值
思考问题:
a、如何进行划分属性解决?
b、给定划分属性,若样本在该属性上的值缺失,如何进行划分?
基本思路:样本赋权,权重划分。给定划分属性,若样本在该属性上的值缺失,会按权重同时进入所有分支。
浙公网安备 33010602011771号