决策树

一、关于决策树

1.1 概念

决策树是将一个大问题进行拆解，分而治之。拆解，分裂的过程构成了一个树的形状。

1.2、学习的过程

通过训练样本的分析来确定划分属性。

1.3、预测的过程

从根节点到叶子节点的路径过程。

1.4、策略

分而治之，自根至叶的递归过程。

1.5、树的停止条件

1.6、构建决策树的过程

二、核心

决策树的核心是如何从属性集中选择最优划分属性。

2.1、熵

信息熵，纯度指标，值越小，纯度越高，不纯度越低

2.2、信息增益

以信息熵为基础，计算当前划分对信息熵所造成的变化，用划分前的信息熵 - 划分后的信息熵。

2.3、ID3

用的信息增益，为了降低信息熵，对取值数目较多的属性有所偏好。

有明显弱点，例如，考虑将 “编号”作为一个属性。

2.4、C4.5

用的信息增益率

启发式：先从候选划分属性中找出信息增益高于平均水平的，再从中选取增益率最高的。

2.5、基尼指数（Gini index）

反映了从D中随机抽取两个样例，其类别不一致的概率。在候选属性集合中，选取那个使划分后基尼指数最小的属性。

三、剪枝

2.1、剪枝影响

划分选择的各种准则虽然对决策树的尺寸有较大影响，但对泛化性能的影响很有限。例如信息增益与基尼指数产生的结果，仅在月2%的情况下不同。

剪枝方法和程度对泛化性能的影响更为显著。

剪枝相当于减少了过拟合，是对付过拟合的主要手段。

2.2、剪枝方法

预剪枝和后剪枝

a、预剪枝：提前终止某些分支的生长。

b、后剪枝：生成一颗完全树，再 “回头” 剪枝。

四、缺失值

思考问题：

a、如何进行划分属性解决？

b、给定划分属性，若样本在该属性上的值缺失，如何进行划分？

基本思路：样本赋权，权重划分。给定划分属性，若样本在该属性上的值缺失，会按权重同时进入所有分支。

posted @ 2022-12-23 00:08 wangpengcufe 阅读(156) 评论(0) 收藏举报

刷新页面返回顶部