决策树

  • ID3 (信息增益):分类

定义:信息增益 g(D, A) = 数据集D的经验熵 H(D) - 某个特征A对于数据集D的经验条件熵 H(D | A) 

步骤:计算每个特征的信息增益,取信息增益最大的特征作为划分。

缺点:偏向于选择取值较多的特征,影响分类的泛化能力。

比如一个特征由原来的两个取值,变为三个时, 有H(D | A) = C· ∑1/2·log(1/2) = C·log(1/2) > C· ∑1/3·log(1/3) = C·log(1/3) 

即取值3的信息增益大于取值2。也可以理解为取值3的携带信息比2更多。

  • C4.5 (信息增益比率):分类

对ID3的改进,为了消除以信息增益为划分时,偏向于选择取值较多的特征。这在一定程度上对取值较多的特征进行惩罚,避免ID3出现过拟合的特征,提升决策树的泛化能力。

定义:信息增益比 gR(D, A) = 信息增益 g(D, A) / 数据集D关于特征A的取值熵 HA(D)

步骤:计算每个特征的信息增益比,取信息增益比最大的特征作为划分。

  • CART (GINI系数):分类与回归

Gini 描述的是数据的纯度,与信息熵含义类似。

Gini(D) = 1 - ∑(C/ D)2

CART在每次迭代中选择基尼指数最小的特征及其对应的切分点进行分类。它是一颗二叉树,这是和ID3、ID4.5不同的地方。

    • 分类问题:Gini指数
    • 回归问题:Mean Squared Error

其他更详细说明见《百面机器学习》

posted @ 2018-10-20 10:36  崔馨月  阅读(142)  评论(0)    收藏  举报