决策树(Decision Tree)介绍
决策树是一种用于判断样本类别的数据结构。常见的构建决策树的方法包括ID3,C4.5和CART。
构建决策树需要回答的最主要的问题是如何进行分割,具体包括以下几个问题
- 根结点用哪个属性
- 多个属性(或属性为连续值)时如何分类
- 何时终止树的生长
考虑以下两种分割:

从图中明显可以看出,右方的split2更优。从数学上来说,可以有多种描述方法:
-
熵(Entropy)
\(E(split)= -\sum_{i=0}^{n-1}p_i log(p_i)\) -
基尼系数(Gini系数)
\(E(split) = \prod_{i=0}^{n-1} pi\)
ID3
ID3用于属性为离散值时的决策树构建。
使用信息增益作为选择split的依据,遍历所有属性,
C4.5
C4.5与ID3类似,但是增加了对连续值的适配
CART
CART(Classification And Regression Tree)这个名字会有一些歧义,所有的分类树都属于CART的一种,但是CART用于分类时,又指单独的一类的分类树。
浙公网安备 33010602011771号