决策树细节

https://zhuanlan.zhihu.com/p/85374168

 

基尼指数gini index本身是一个概念,它可以用来描述集合里面分类的混乱程度,和信息熵的意义非常接近,用泰勒展开可以得到是信息熵的近似值。

它可以用来描述很多个分类的集合,不光是2分类。

但是如果应用在CART树上,因为CART树是二叉树,尽分为a和非a,所以CART树上,gini index最大是1-0.5**2-0.5**2=0.5, 基尼指数越大,表明不确定性越高。最小是0.

 

而如果多分类的情况下,最大就不是0.5,而是

  • Perfectly classified, Gini Index would be zero.
  • Evenly distributed would be 1 – (1/# Classes).

 

和ID3类似,构建树是时候,我们有限往信息增益最大,也就是H(D)-H(D|A) 的情况下生长。比如一开始很混乱信息熵为0.9,在某个特征条件下信息熵变为0.4,增益为0.5,令增益尽可能大。

而CART树也是,它可以用于数值特征。我们首先对所有特征取一个临界点k进行区分,分为>k 和 <k。然后计算增益,增益最大的进行生长。,

 

posted @ 2020-05-26 14:36  yjy888  阅读(127)  评论(0编辑  收藏  举报