Trouvaille_fighting

2021年9月22日

摘要：常见决策树的启发函数比较名称提出时间分支方式备注 ID3 1975 信息增益 ID3只能对离散属性的数据集构成决策树 C4.5 1993 信息增益率优化后解决了ID3分支过程中总喜欢偏向选择值较多的属性 CART 1984 Gini系数可以进行分类和回归，可以处理离散属性，也可以处理连阅读全文

posted @ 2021-09-22 17:07 Trouvaille_fighting 阅读(387) 评论(0) 推荐(0)

决策树算法2-决策树分类原理2.4-基尼值和基尼指数

摘要： 1 概念 CART决策树使用"基尼指数" (Gini index)来选择划分属性，分类和回归任务都可用。基尼值Gini（D）：从数据集D中随机抽取两个样本，其类别标记不一致的概率 Gini（D）值越小，数据集D的纯度越高。 2 计算数据集 D 的纯度可用基尼值来度量: \(p_k=\frac{c 阅读全文

posted @ 2021-09-22 16:29 Trouvaille_fighting 阅读(6662) 评论(0) 推荐(0)

决策树算法2-决策树分类原理2.3-信息增益率

摘要：决策树的划分依据-信息增益率C4.5 1 背景信息增益准则ID3对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的 C4.5 决策树算法[Quinlan， 1993J 不直接使用信息增益，而是使用"增益率" (gain ratio) 来选择最优划分属性. 2 定义增益率：增阅读全文

posted @ 2021-09-22 15:22 Trouvaille_fighting 阅读(1080) 评论(0) 推荐(0)

决策树算法2-决策树分类原理2.2-信息增益

摘要：决策树的划分依据--信息增益 1 概念 1.1 定义信息增益：以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。信息增益 = entroy(前) - entroy(后) 注阅读全文

posted @ 2021-09-22 13:46 Trouvaille_fighting 阅读(2048) 评论(0) 推荐(0)

决策树算法2-决策树分类原理2.1-信息熵

摘要：熵 1 概念 1.1 起源物理学上，熵 Entropy是“混乱”程度的量度。系统越有序，熵值越低；系统越混乱或者分散，熵值越高。 1948年香农提出了信息熵（Entropy）的概念。 1.2 信息理论从信息的完整性上描述：系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。阅读全文

posted @ 2021-09-22 10:16 Trouvaille_fighting 阅读(637) 评论(0) 推荐(1)

2021年9月20日

逻辑回归5-ROC曲线的绘制

摘要： 1 曲线绘制关于ROC曲线的绘制过程，通过以下举例进行说明假设有6次展示记录，有两次被点击了，得到一个展示序列（1:1,2:0,3:1,4:0,5:0,6:0），前面的表示序号，后面的表示点击（1）或没有点击（0）。然后在这6次展示的时候都通过model算出了点击的概率序列，下面看三种情况。 1 阅读全文

posted @ 2021-09-20 13:35 Trouvaille_fighting 阅读(964) 评论(0) 推荐(0)

逻辑回归4-分类评估方法、混淆矩阵、精确率、召回率、roc曲线、auc指标

摘要： 1.分类评估方法 1.1 精确率与召回率 1.1.1 混淆矩阵在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类) 1.1.2 准确率、精确率(Precision)与召回率(Recall) 准阅读全文

posted @ 2021-09-20 13:12 Trouvaille_fighting 阅读(764) 评论(0) 推荐(0)

2021年9月19日

逻辑回归3-癌症分类预测-良/恶性乳腺癌肿瘤预测

摘要： 1 背景介绍数据介绍原始数据的下载地址：https://archive.ics.uci.edu/ml/machine-learning-databases/ 数据描述（1）699条样本，共11列数据，第一列用语检索的id，后9列分别是与肿瘤相关的医学特征，最后一列表示肿瘤类型的数值。（2）包阅读全文

posted @ 2021-09-19 10:34 Trouvaille_fighting 阅读(807) 评论(0) 推荐(0)

逻辑回归2-API

摘要：逻辑回归API-LogisticRegression sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0) solver可选参数:{'liblinear', 'sag', 'saga',' 阅读全文

posted @ 2021-09-19 10:25 Trouvaille_fighting 阅读(74) 评论(0) 推荐(0)

逻辑回归1-原理、损失函数、优化方案

摘要： 1 逻辑回归的应用场景解决二分类问题广告点击率、是否患病、是否为垃圾邮件、虚假账号 2 逻辑回归的原理 2.1 输入逻辑回归的输入就是一个线性回归的输出 2.2 激活函数 sigmoid函数判断标准回归的结果输入到sigmoid函数当中把整体的值映射到[0,1] 再设置一个阈值，进行分类阅读全文

posted @ 2021-09-19 10:15 Trouvaille_fighting 阅读(326) 评论(0) 推荐(0)

Trouvaille

持续学习...

公告