10.27

在决策树构建过程中,算法终止分裂的核心逻辑是避免树结构无意义地复杂化,常见的三个终止条件如下:
节点样本全属于同一类别(纯节点)当某个节点中的所有样本都属于同一个类别时,继续分裂该节点无法提升分类精度(信息增益为 0),因此停止分裂。例如,若某节点所有样本都是 “正例”,则该节点直接作为叶节点,输出 “正例”。
节点样本数小于最小分裂阈值当节点包含的样本数量少到一定程度(如小于预设的min_samples_split),继续分裂可能会过度学习训练数据中的噪声(导致过拟合),且统计上不具备代表性。此时算法会停止分裂,将该节点作为叶节点(通常以多数类作为输出)。
无可用特征或分裂增益低于阈值若所有特征已被用于分裂(无新特征可选择),或剩余特征分裂该节点时,信息增益(ID3/C4.5)、基尼指数下降(CART)等指标低于预设阈值(如min_impurity_decrease),说明分裂对模型性能提升极小,因此终止分裂。
这三个条件共同作用,既能保证决策树捕捉数据规律,又能避免结构冗余,是控制树复杂度的核心机制。

posted @ 2025-10-27 23:21  为啥不懂就问  阅读(5)  评论(0)    收藏  举报