摘要: 常见决策树的启发函数比较 名称 提出时间 分支方式 备注 ID3 1975 信息增益 ID3只能对离散属性的数据集构成决策树 C4.5 1993 信息增益率 优化后解决了ID3分支过程中总喜欢偏向选择值较多的 属性 CART 1984 Gini系数 可以进行分类和回归,可以处理离散属性,也可以处理连 阅读全文
posted @ 2021-09-22 17:07 Trouvaille_fighting 阅读(387) 评论(0) 推荐(0)
摘要: 1 概念 CART决策树使用"基尼指数" (Gini index)来选择划分属性,分类和回归任务都可用。 基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不一致的概率 Gini(D)值越小,数据集D的纯度越高。 2 计算 数据集 D 的纯度可用基尼值来度量: \(p_k=\frac{c 阅读全文
posted @ 2021-09-22 16:29 Trouvaille_fighting 阅读(6662) 评论(0) 推荐(0)
摘要: 决策树的划分依据-信息增益率C4.5 1 背景 信息增益准则ID3对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的 C4.5 决策树算法[Quinlan, 1993J 不直接使用信息增益,而是使用"增益率" (gain ratio) 来选择最优划分属性. 2 定义 增益率:增 阅读全文
posted @ 2021-09-22 15:22 Trouvaille_fighting 阅读(1080) 评论(0) 推荐(0)
摘要: 决策树的划分依据--信息增益 1 概念 1.1 定义 信息增益:以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 信息增益 = entroy(前) - entroy(后) 注 阅读全文
posted @ 2021-09-22 13:46 Trouvaille_fighting 阅读(2048) 评论(0) 推荐(0)
摘要: 熵 1 概念 1.1 起源 物理学上,熵 Entropy是“混乱”程度的量度。系统越有序,熵值越低;系统越混乱或者分散,熵值越高。 1948年香农提出了信息熵(Entropy)的概念。 1.2 信息理论 从信息的完整性上描述:系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。 阅读全文
posted @ 2021-09-22 10:16 Trouvaille_fighting 阅读(637) 评论(0) 推荐(1)
摘要: 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 决策树: 一种树形结构 每个内部节点表示一个属性上的判断 每个分支代表一个判断结果的输出 最后每个叶节点代表一种分类结果 本质是一颗由多个判断节点组成的树。 此时需要用到 阅读全文
posted @ 2021-09-22 09:41 Trouvaille_fighting 阅读(69) 评论(0) 推荐(0)