第九周第五天9.5
所用时间:180分钟
代码量(行):0
了解到的知识点:
1.决策树算法终止条件
(1)样本纯度达到要求:当当前节点的所有样本属于同一类别(即熵为 0 或基尼系数为 0),无需再划分,直接作为叶节点输出类别。
(2)无可用属性划分:若所有属性都已用于划分,或剩余属性对分类结果无影响,此时将当前节点的多数类作为叶节点的类别。
(3)满足预设的停止规则:例如树的深度达到预设最大值、每个节点的样本数少于预设最小值,或信息增益(或其他划分准则)小于预设阈值时,停止划分,将当前节点标记为叶节点并输出多数类。
2.以信息增益和信息增益率以属性划分准则存在的问题
信息增益:倾向于选择取值多的属性,如 “ID” 类唯一取值的属性,其信息增益会很大,但无实际划分意义。
信息增益率:倾向于选择取值少的属性,可能导致划分结果不够合理。

浙公网安备 33010602011771号