决策树(Decision Tree)介绍

决策树是一种用于判断样本类别的数据结构。常见的构建决策树的方法包括ID3,C4.5和CART。

构建决策树需要回答的最主要的问题是如何进行分割,具体包括以下几个问题

  1. 根结点用哪个属性
  2. 多个属性(或属性为连续值)时如何分类
  3. 何时终止树的生长

考虑以下两种分割:

从图中明显可以看出,右方的split2更优。从数学上来说,可以有多种描述方法:

  1. 熵(Entropy)
    \(E(split)= -\sum_{i=0}^{n-1}p_i log(p_i)\)

  2. 基尼系数(Gini系数)
    \(E(split) = \prod_{i=0}^{n-1} pi\)

ID3
ID3用于属性为离散值时的决策树构建。
使用信息增益作为选择split的依据,遍历所有属性,

C4.5
C4.5与ID3类似,但是增加了对连续值的适配

CART
CART(Classification And Regression Tree)这个名字会有一些歧义,所有的分类树都属于CART的一种,但是CART用于分类时,又指单独的一类的分类树。

posted on 2017-07-01 23:19  chnzms  阅读(170)  评论(0)    收藏  举报

导航