决策树细节

基尼指数gini index本身是一个概念，它可以用来描述集合里面分类的混乱程度，和信息熵的意义非常接近，用泰勒展开可以得到是信息熵的近似值。

它可以用来描述很多个分类的集合，不光是2分类。

但是如果应用在CART树上，因为CART树是二叉树，尽分为a和非a，所以CART树上，gini index最大是1-0.5**2-0.5**2=0.5, 基尼指数越大，表明不确定性越高。最小是0.

而如果多分类的情况下，最大就不是0.5，而是

和ID3类似，构建树是时候，我们有限往信息增益最大，也就是H(D)-H(D|A) 的情况下生长。比如一开始很混乱信息熵为0.9，在某个特征条件下信息熵变为0.4，增益为0.5，令增益尽可能大。

而CART树也是，它可以用于数值特征。我们首先对所有特征取一个临界点k进行区分，分为>k 和 <k。然后计算增益，增益最大的进行生长。，

posted @ 2020-05-26 14:36 yjy888 阅读(127) 评论(0) 编辑收藏举报

刷新页面返回顶部