学习日记2025.7.10

决策树算法的流程:
多条数据+若干特征+label
计算每个特征下的信息增益,选择最大的作为当前节点分类标准
终止条件为:当前分支下的label全一样或者某种label比例达到一定阈值

信息增益定义:

数学定义

信息增益定义为:使用特征A对数据集D进行划分前后的熵差值

\[IG(D, A) = H(D) - H(D|A) \]

其中:

  • \(IG(D, A)\):特征A对数据集D的信息增益
  • \(H(D)\):划分前数据集D的熵
  • \(H(D|A)\):使用特征A划分后的条件熵

详细计算公式

1. 数据集熵(Dataset Entropy)

\[H(D) = -\sum_{i=1}^{k} p_i \log_2 p_i \]

2. 条件熵(Conditional Entropy)

\[H(D|A) = \sum_{v=1}^{V} \frac{|D^v|}{|D|} H(D^v) \]

3. 完整的信息增益公式

\[IG(D, A) = H(D) - \sum_{v=1}^{V} \frac{|D^v|}{|D|} H(D^v) \]

参数说明:

  • \(k\):类别总数
  • \(p_i\):第i类样本在数据集中的比例
  • \(V\):特征A的可能取值数量
  • \(D^v\):特征A取第v个值时对应的样本子集
  • \(|D^v|\):子集\(D^v\)的样本数量
  • \(|D|\):总样本数量
posted @ 2025-07-10 19:32  咖啡加油条  阅读(6)  评论(0)    收藏  举报