学习日记2025.7.10
决策树算法的流程:
多条数据+若干特征+label
计算每个特征下的信息增益,选择最大的作为当前节点分类标准
终止条件为:当前分支下的label全一样或者某种label比例达到一定阈值
信息增益定义:
数学定义
信息增益定义为:使用特征A对数据集D进行划分前后的熵差值。
\[IG(D, A) = H(D) - H(D|A)
\]
其中:
- \(IG(D, A)\):特征A对数据集D的信息增益
- \(H(D)\):划分前数据集D的熵
- \(H(D|A)\):使用特征A划分后的条件熵
详细计算公式
1. 数据集熵(Dataset Entropy)
\[H(D) = -\sum_{i=1}^{k} p_i \log_2 p_i
\]
2. 条件熵(Conditional Entropy)
\[H(D|A) = \sum_{v=1}^{V} \frac{|D^v|}{|D|} H(D^v)
\]
3. 完整的信息增益公式
\[IG(D, A) = H(D) - \sum_{v=1}^{V} \frac{|D^v|}{|D|} H(D^v)
\]
参数说明:
- \(k\):类别总数
- \(p_i\):第i类样本在数据集中的比例
- \(V\):特征A的可能取值数量
- \(D^v\):特征A取第v个值时对应的样本子集
- \(|D^v|\):子集\(D^v\)的样本数量
- \(|D|\):总样本数量

浙公网安备 33010602011771号