上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 39 下一页
摘要: 常见决策树的启发函数比较 名称 提出时间 分支方式 备注 ID3 1975 信息增益 ID3只能对离散属性的数据集构成决策树 C4.5 1993 信息增益率 优化后解决了ID3分支过程中总喜欢偏向选择值较多的 属性 CART 1984 Gini系数 可以进行分类和回归,可以处理离散属性,也可以处理连 阅读全文
posted @ 2021-09-22 17:07 Trouvaille_fighting 阅读(387) 评论(0) 推荐(0)
摘要: 1 概念 CART决策树使用"基尼指数" (Gini index)来选择划分属性,分类和回归任务都可用。 基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不一致的概率 Gini(D)值越小,数据集D的纯度越高。 2 计算 数据集 D 的纯度可用基尼值来度量: \(p_k=\frac{c 阅读全文
posted @ 2021-09-22 16:29 Trouvaille_fighting 阅读(6662) 评论(0) 推荐(0)
摘要: 决策树的划分依据-信息增益率C4.5 1 背景 信息增益准则ID3对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的 C4.5 决策树算法[Quinlan, 1993J 不直接使用信息增益,而是使用"增益率" (gain ratio) 来选择最优划分属性. 2 定义 增益率:增 阅读全文
posted @ 2021-09-22 15:22 Trouvaille_fighting 阅读(1080) 评论(0) 推荐(0)
摘要: 决策树的划分依据--信息增益 1 概念 1.1 定义 信息增益:以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 信息增益 = entroy(前) - entroy(后) 注 阅读全文
posted @ 2021-09-22 13:46 Trouvaille_fighting 阅读(2048) 评论(0) 推荐(0)
摘要: 熵 1 概念 1.1 起源 物理学上,熵 Entropy是“混乱”程度的量度。系统越有序,熵值越低;系统越混乱或者分散,熵值越高。 1948年香农提出了信息熵(Entropy)的概念。 1.2 信息理论 从信息的完整性上描述:系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。 阅读全文
posted @ 2021-09-22 10:16 Trouvaille_fighting 阅读(637) 评论(0) 推荐(1)
摘要: 1 曲线绘制 关于ROC曲线的绘制过程,通过以下举例进行说明 假设有6次展示记录,有两次被点击了,得到一个展示序列(1:1,2:0,3:1,4:0,5:0,6:0),前面的表示序号,后面的表示点击(1)或没有点击(0)。然后在这6次展示的时候都通过model算出了点击的概率序列,下面看三种情况。 1 阅读全文
posted @ 2021-09-20 13:35 Trouvaille_fighting 阅读(964) 评论(0) 推荐(0)
摘要: 1.分类评估方法 1.1 精确率与召回率 1.1.1 混淆矩阵 在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类) 1.1.2 准确率、精确率(Precision)与召回率(Recall) 准 阅读全文
posted @ 2021-09-20 13:12 Trouvaille_fighting 阅读(764) 评论(0) 推荐(0)
摘要: 1 背景介绍 数据介绍 原始数据的下载地址:https://archive.ics.uci.edu/ml/machine-learning-databases/ 数据描述 (1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤相关的医学特征,最后一列表示肿瘤类型的数值。 (2)包 阅读全文
posted @ 2021-09-19 10:34 Trouvaille_fighting 阅读(807) 评论(0) 推荐(0)
摘要: 逻辑回归API-LogisticRegression sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0) solver可选参数:{'liblinear', 'sag', 'saga',' 阅读全文
posted @ 2021-09-19 10:25 Trouvaille_fighting 阅读(74) 评论(0) 推荐(0)
摘要: 1 逻辑回归的应用场景 解决二分类问题 广告点击率、是否患病、是否为垃圾邮件、虚假账号 2 逻辑回归的原理 2.1 输入 逻辑回归的输入就是一个线性回归的输出 2.2 激活函数 sigmoid函数 判断标准 回归的结果输入到sigmoid函数当中 把整体的值映射到[0,1] 再设置一个阈值,进行分类 阅读全文
posted @ 2021-09-19 10:15 Trouvaille_fighting 阅读(326) 评论(0) 推荐(0)
上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 39 下一页