决策树学习笔记

对于李航统计学习方法中决策树的学习想从一下几个角度进行整理：

1.决策树介绍

2.熵，信息增益，信息增益率，基尼指数

3.决策树的生成算法（ID3，C4.5，CART）

4.决策树的减枝

1.决策树介绍

1.1 决策树的模型：

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部节点和叶节点，内部节点表示一个特征或属性，叶节点表示一个类。分类的时候，从根节点开始，当前节点设为根节点，当前节点必定是一种特征，根据实例的该特征的取值，向下移动，直到到达叶节点，将实例分到叶节点对应的类中。

1.2 决策树分类的if-then规则

决策树的属性结构其实对应着一个规则集合：由决策树的根节点到叶节点的每条路径构成的规则组成；路径上的内部特征对应着if条件，叶节点对应着then结论。决策树和规则集合是等效的，都具有一个重要的性质：互斥且完备。也就是说任何实例都被且仅被一条路径或规则覆盖。

1.3 决策树学习

决策树的学习本质是归纳出一组分类规则，规则可能有多个，目的是为了获得一个与训练数据矛盾较小的树，同时有很好的泛化能力。从另一个角度看，学习也是基于训练数据集估计条件概率模型。

决策树的损失函数通常是正则化的极大似然函数，学习的策略是以损失函数为目标函数的最小化。从所有的决策树中选取最有决策树是NP问题，常采用启发式方法近似求解这一问题。（启发式的方法？SMO算法等，后期整理）

其对应的三个步骤：

1. 特征选择
2. 模型生成
3. 决策树的剪枝

学习算法通常为递归选择最优特征、根据特征训练数据进行分割，使各个子集有一个最好分类过程，这一过程对应着特征空间的划分。开始，构建很结点，将所有训练数据都放在根结点中按照这一特征将训练数据些子集已经能够被基本正确分类，那么构建叶结点，并将这些自己分到所对应的叶结点中去：如果还有子集不能被基本正确分类，那么就对这些自己选择新的最优特征，继续对去进行分割，构建相应的结点。然后一直递归下去，知道所有训练数据子集被基本正确分类，或者没有合适的特征为止。

2.熵，信息增益，信息增益率

2.1 熵

熵表示随机变量不确定性的度量，熵越大，不确定性越大。对于一个可能有n中取值的随机变量X，其概率分布为：

其熵为：

由定义值，X的熵与X无关，只与分布有关，所以也可以将X的熵记作H(p),即：

设有随机变量(X,Y),其联合分布为：

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性，定义为在X给定的条件下，Y的田间概率分布对X的数学期望：

这里，

当熵和条件熵中的概率由极大似然估计得到时，所对应的熵与条件熵分别称为经验熵和经验条件熵

2.2 信息增益

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

定义：特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即：

给定数据集D和特征A，经验熵H(D)表示对数据集的不确定性。经验条件熵H(D|A)表示在特征A给定的条件下的数据集D进行分类的不确定性。此时信息增益表示由于特征A而使得对数据集D的分类的不确定性减少的程度，对于数据集D，信息增益大的特征具有更强的分类能力。

2.3 信息增益比

信息增益的值是相对于训练数据集而言的，当H(D)大的时候，信息增益值往往会偏大，这样对H(D)小的特征不公平。改进的方法是信息增益比。（比如说某些情况对人的身份证号，日期这些特征进行分类的时候，其H(D),和g(D|A)都比较大，但是对于这些特征进行分类显然是没有意义的，采用信息增益比相当于是对分支过多的情况进行惩罚）

3.决策树生成算法

3.1 ID3算法

从根节点开始，计算所有可能的特征的信息增益，选择信息增益最大的特征作为当前节点的特征（怎么进行选择，对每一个特征进行计算？是否对应于boosting tree中的exact greedy、approximate、weighted quantile sketch中选择划分点的方式一样？），由特征的不同取值建立空白子节点，对空白子节点递归调用此方法，直到所有特征的信息增益小于阀值或者没有特征可选为止。ID3相当于用极大似然法进行概率模型的选择。（ID3的缺点是倾向于选取值较多的特征进行划分）