决策树
- ID3 (信息增益):分类
定义:信息增益 g(D, A) = 数据集D的经验熵 H(D) - 某个特征A对于数据集D的经验条件熵 H(D | A)
步骤:计算每个特征的信息增益,取信息增益最大的特征作为划分。
缺点:偏向于选择取值较多的特征,影响分类的泛化能力。
比如一个特征由原来的两个取值,变为三个时, 有H(D | A) = C· ∑1/2·log(1/2) = C·log(1/2) > C· ∑1/3·log(1/3) = C·log(1/3)
即取值3的信息增益大于取值2。也可以理解为取值3的携带信息比2更多。
-
C4.5 (信息增益比率):分类
对ID3的改进,为了消除以信息增益为划分时,偏向于选择取值较多的特征。这在一定程度上对取值较多的特征进行惩罚,避免ID3出现过拟合的特征,提升决策树的泛化能力。
定义:信息增益比 gR(D, A) = 信息增益 g(D, A) / 数据集D关于特征A的取值熵 HA(D)
步骤:计算每个特征的信息增益比,取信息增益比最大的特征作为划分。
- CART (GINI系数):分类与回归
Gini 描述的是数据的纯度,与信息熵含义类似。
Gini(D) = 1 - ∑(Ck / D)2
CART在每次迭代中选择基尼指数最小的特征及其对应的切分点进行分类。它是一颗二叉树,这是和ID3、ID4.5不同的地方。
-
- 分类问题:Gini指数
- 回归问题:Mean Squared Error
其他更详细说明见《百面机器学习》

浙公网安备 33010602011771号