决策树

一、关于决策树

1.1 概念

决策树是将一个大问题进行拆解,分而治之。拆解,分裂的过程构成了一个树的形状。

1.2、学习的过程

通过训练样本的分析来确定划分属性。

1.3、预测的过程

从根节点到叶子节点的路径过程。

1.4、策略

分而治之,自根至叶的递归过程。

1.5、树的停止条件

  • a、节点中样本全是同类,无需划分 -> 最好分,是谁就是谁
  • b、属性不够用,或所有样本在所有属性上取值相同,无法划分  -> 谁多就是谁,后验概率
  • c、空集,训练集中未出现过的样本 ->父节点谁多就是谁, 先验概率

1.6、构建决策树的过程

 二、核心

决策树的核心是如何从属性集中选择最优划分属性。

2.1、熵

信息熵,纯度指标,值越小,纯度越高,不纯度越低

 

 

 2.2、信息增益

以信息熵为基础,计算当前划分对信息熵所造成的变化,用划分前的信息熵 - 划分后的信息熵。

2.3、ID3

用的信息增益,为了降低信息熵,对取值数目较多的属性有所偏好。

有明显弱点,例如,考虑将 “编号”作为一个属性。

2.4、C4.5

用的信息增益率

 

 

启发式:先从候选划分属性中找出信息增益高于平均水平的,再从中选取增益率最高的。

2.5、基尼指数 (Gini index)

反映了从D中随机抽取两个样例,其类别不一致的概率。在候选属性集合中,选取那个使划分后基尼指数最小的属性。

 

 三、剪枝

2.1、剪枝影响

划分选择的各种准则虽然对决策树的尺寸有较大影响,但对泛化性能的影响很有限。例如信息增益与基尼指数产生的结果,仅在月2%的情况下不同。

剪枝方法和程度对泛化性能的影响更为显著。

剪枝相当于减少了过拟合,是对付过拟合的主要手段。

2.2、剪枝方法

预剪枝 和 后剪枝

a、预剪枝: 提前终止某些分支的生长。

b、后剪枝:生成一颗完全树,再 “回头” 剪枝。

四、缺失值

思考问题:

a、如何进行划分属性解决?

b、给定划分属性,若样本在该属性上的值缺失,如何进行划分?

基本思路:样本赋权,权重划分。给定划分属性,若样本在该属性上的值缺失,会按权重同时进入所有分支。

 

posted @ 2022-12-23 00:08  wangpengcufe  阅读(156)  评论(0)    收藏  举报