决策树生成算法

关于决策树，想必大部分人都已经耳熟能详了，这是一种用来预测行为的树状分叉结构。本文主要想总结一下最常用的决策树生成算法

构造的原则

熟悉决策树的你一定记得，决策树每个非叶子结点对应的其实是一个属性。比方说，想判断一个男生是不是 gay，我们首先需要判断他的性别是不是男的，是的话继续判断他的性取向，之后继续判断他的其他行为……这里的「性别」，「性取向」就是属性，而决策树的生成其实是依次挑选这些属性组成自己的节点，到最终可以明确得出结论的时候（也就是叶子结点），整棵树便生成了。所以，我们的目标就是按照某种方法依次挑选出这些属性。

我们挑选的原则是：每次选出这个属性后，可以最大限度地减小分类的可能性。回到 gay 这个问题，如果摆在我们眼前的属性有：「性取向」，「是否喜欢日漫」，「是否长发披肩」，那么，选择「性取向」这个属性，对我们之后的判断，帮助无疑是最大的。因为得知「性取向」之后，基本也就得到结论了。所以，对这个例子而言，「性取向」是我们优先挑选的属性。

那么，我们如何衡量这种帮助的大小呢？请往下看👇。

ID3 算法

ID3 算法归根到底就是提出一种合理的选择属性的方法。

（注意，决策树是一种知识学习算法，只有从众多样本中才能得出哪个属性最好，所以，构造决策树的前提是有大量的样本可供学习）

下面，为了方便讲解，我们需要引入信息学中「熵」的概念🙈。

熵（entropy）

第一次接触熵的概念是在学高中化学的时候，课本告诉我们：一堆整齐有序的分子，最终都会演变成一个混乱复杂的群体，也就是，这个系统的熵值会逐渐变大。因此，简单整齐的系统，熵越小，越混乱的系统，熵越大。接下来，让我们回顾一下分子的布朗运动……

开个玩笑啦🤗。

同化学里的熵一样，信息学的熵也有类似的作用。在信息学中，如果熵越大，证明掌握的信息越少，事情越不确定。看到这里，你有没有觉得，熵的定义和我们前面提出的挑选属性的原则有点类似。是的，ID3 的精髓也就是在这，它通过计算属性的熵，来得出一个属性对事情的确定性能产生多大的影响，从而选出最好的属性。

那么熵该如何度量呢？

著名的信息论创始人「香农」提出一个度量熵的方法：假设有一堆样本 D，那么 D 的熵可以这样计算：

H (D) = - \sum i = 1 m p i l o g 2 (p i)

其中， $p_{i}$

$H (D) = - (\frac{5}{10} l o g_{2} \frac{5}{10} + \frac{5}{10} l o g_{2} \frac{5}{10}) = 1$

反之，如果只有 1 枚硬币正面朝上，9 枚硬币正面朝下，那么熵为：

$H (D) = - (\frac{1}{10} l o g_{2} \frac{1}{10} + \frac{9}{10} l o g_{2} \frac{9}{10}) = 0.469$

如果全部硬币正面朝上，你应该可以算出来，熵为 0。举这个例子是想说明：当熵的值越大的时候，事情会更加难以确定，如果你知道 10 次实验中，正面朝上的为 5 次，朝下的也为 5 次，那么下一次哪一面朝上，你是不是很难确定。相反，如果熵的值越小，事情就越明朗。当熵为 0，也就是 10 次都正面朝上的时候，下一次你会不会觉得正面朝上的概率会大很多（请忘掉你的传统思维，我没说这是一枚正常的硬币）。

选择属性

好了，有了熵的概念以及度量方法，下面我们可以正式地走一遍 ID3 的流程了。同样的，假设我们有一堆数据 D，我们先计算出这堆样本的熵 $H (D)$

R e m a i n d e r (A) = \sum j = 1 v | D j | | D | H ( D

$p_{i}$

G a i n (A) = H (D) - R e m a i n d e r (A)

$p_{i}$

举个例子

下面用的这个例子摘自文末的参考博客算法杂货铺——分类算法之决策树(Decision tree)。假设我们有以下这堆 SNS 社区的资料，我们想确定一个账号是否是真实。其中，s 、m 和 l 分别表示小、中和大。我们先计算出这堆样本的熵：

$H (D) = - (0.7 * l o g_{2} 0.7 + 0.3 * l o g_{2} 0.3) = 0.879$

然后，我们计算每个属性的信息增益：

R e m a i n d e r (L) = 0.3 * (- 0 3 l o g 2 0 3 - 3 3 l

G a i n (L) = 0.879 - 0.603 = 0.276

同样的道理：

G a i n (F) = 0.553

G a i n (H) = 0.033

经过比较，我们发现 F 的增益最高，于是选出 F 作为节点，构造出如下决策树：注意，F 属性有三个类别，对应三个分支，其中，l 和 m 两个分支的数据都是同一类（账号真实性要么都是 no 要么都是 yes），因此这两个分支没法再分了，而 s 属性的分支，剩下一个四个样本的子集，我们之后的任务，是对这个子集继续分割，直到没法再分为止。接下来要考虑 L 和 H 属性，同样的道理，我们继续计算增益，只不过这一次我们是在这个子集上计算。

H (D) = - (3 4 * l o g 2 3 4 + 1 4 * l o g 2 1 4 ) = 0.811

R e m a i n d e r (L) = 1 2 * ( 0 ) + 1 2 ( - 1 2 l o g 2 1 2 - 1

R e m a i n d e r (H) = 3 4 * [ - 2 3 l o g 2 ( 2 3 ) - 1 3 l o g 2 (

G a i n (L) = 0.811 - 0.5 = 0.311

G a i n (H) = 0.811 - 0.689 = 0.122

这一次，我们选择 L 属性进行分裂：剩下的只有 H 属性，因此最后加上 H 节点。由于剩下的样本中只有 H=no 的数据，因此 yes 节点的数据没法判断（这种情况在数据量很大的时候一般不会遇到，因为数据量越大，涵盖的情况会更多），而剩下的两个样本存在 yes 和 no 两种情况，因此 no 节点往下也只能随机选择一种类别进行判断（这种情况一般是根据进行「多数表决」，即选择出现次数最多的类别作为最终类别，在数据量很大的情况下，出现次数一样多的情况几乎不会发生）。

属性为连续值的情况

上面给出的例子中，样本的特征都是离散值（e.g. s，m，l），而 ID3 算法确实也只对离散值起作用。如果遇到特征为连续值的情况，一般需要先将其离散化，例如：可以选定几个阈值 $a_{1}$

C4.5算法

C4.5 算法主要对 ID3 进行了改进，用「增益率」来衡量属性的信息增益效率。算法中定义了「分裂信息」：

$S p l i t I n f o (A) = - \sum_{j = 1}^{v} \frac{| D_{j} |}{| D |} l o g_{2} \frac{| D_{j} |}{| D |}$

然后，通过该信息，定义增益率公式为：

$G a i n R a t i o (A) = \frac{G a i n (A)}{S p l i t I n f o (A)}$

C4.5选择具有最大「增益率」的属性作为分裂属性，而其余步骤，和 ID3 完全一致。

CART

CART 指的是分类回归树（Classification And Regression Tree）。顾名思义，这是一棵既可以用于分类，也可以用于回归的树。不同于上面的两种树，CART 每一个非叶子节点只有有两个分支，所以 CART 是一棵二叉树。下面我们按照分类和回归两个用途分别介绍 CART 的构建。

分类树的生成

CART 在选择分裂节点的时候，用「基尼指数（Gini）」来挑选最合适的特征进行分裂。所谓「基尼指数」，其实和 ID3 中熵的作用类似。假设我们有一个数据集 D，其中包含 N 个类别，那么「基尼指数」为：

G i n i (D) = 1 - \sum j = 1 N P 2 j

$p_{i}$

G i n i (D, A) = \sum j k | D j | | D |

$p_{i}$

回归树的生成

回归树相对来说比较难理解，我自己也花了较长时间咀嚼，其中还有一些不明白的地方，日后有了新的想法会继续补充修正。为了更好地说明回归树的构建流程，我们假设有以下训练数据：

$X$	$Y$
( $x_{11}$	$y_{1}$
( $x_{21}$	$y_{2}$
( $x_{31}$	$y_{3}$

上面的表中一共有三个样本，每个样本有三个特征，为了解说方便，我们分别命名为特征 1、特征 2、特征 3（比如： $x_{11}$

min j, s [min c 1 \sum x i \in R 1 (j, s) (y i - c 1

其中，

$j$
$s$
$R_{1}$
$c_{1}$

如果我们进一步对 $\sum_{x_{i} \in R_{1} (j, s)} {(y_{i} - c_{1})}^{2}$

min j, s [\sum x i \in R 1 (j, s) (y i - c 1) 2 + \sum

$p_{i}$

希望上面对符号的说明能减少读者对公式的畏惧🤒。

这个公式的做法其实很简单，就是枚举所有特征以及特征值，挑选出最好的特征以及特征值作为分裂点，将样本分为两部分，其中，每一部分内的样本值 $y$

至此，回归树的精髓部分就介绍完了。下面顺藤摸瓜讲一下回归树的构建过程。

最小二乘回归树生成算法：

依次遍历每个特征 j，根据所有样本中特征 j 的取值 s，我们按照上面的公式计算代价函数，这样便可以得到每对 ( $j$
使用上一步的切分点将数据分为两份；
重复第 1、2 步，直到样本的平方差小于阈值或样本数目小于阈值为止。此时，叶子节点的数据就是该样本空间 $R_{m}$
根据第 3 步构造的各个样本空间 $R_{m}$

posted @ 2017-12-05 10:48 MYy_youngyi 阅读(6377) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

MYy_youngyi

决策树生成算法

构造的原则

ID3 算法

熵（entropy）

选择属性

举个例子

属性为连续值的情况

C4.5算法

CART

分类树的生成

回归树的生成

公告