数据分析方法 - 随笔分类(第2页) - Trouvaille_fighting

决策树算法2-决策树分类原理2.2-信息增益

摘要：决策树的划分依据--信息增益 1 概念 1.1 定义信息增益：以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。信息增益 = entroy(前) - entroy(后) 注阅读全文

posted @ 2021-09-22 13:46 Trouvaille_fighting 阅读(2096) 评论(0) 推荐(0)

决策树算法2-决策树分类原理2.1-信息熵

摘要：熵 1 概念 1.1 起源物理学上，熵 Entropy是“混乱”程度的量度。系统越有序，熵值越低；系统越混乱或者分散，熵值越高。 1948年香农提出了信息熵（Entropy）的概念。 1.2 信息理论从信息的完整性上描述：系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。阅读全文

posted @ 2021-09-22 10:16 Trouvaille_fighting 阅读(649) 评论(0) 推荐(1)

决策树算法1-什么是决策树

摘要：决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-else结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法决策树：一种树形结构每个内部节点表示一个属性上的判断每个分支代表一个判断结果的输出最后每个叶节点代表一种分类结果本质是一颗由多个判断节点组成的树。此时需要用到阅读全文

posted @ 2021-09-22 09:41 Trouvaille_fighting 阅读(70) 评论(0) 推荐(0)

逻辑回归5-ROC曲线的绘制

摘要：1 曲线绘制关于ROC曲线的绘制过程，通过以下举例进行说明假设有6次展示记录，有两次被点击了，得到一个展示序列（1:1,2:0,3:1,4:0,5:0,6:0），前面的表示序号，后面的表示点击（1）或没有点击（0）。然后在这6次展示的时候都通过model算出了点击的概率序列，下面看三种情况。 1 阅读全文

posted @ 2021-09-20 13:35 Trouvaille_fighting 阅读(971) 评论(0) 推荐(0)

逻辑回归4-分类评估方法、混淆矩阵、精确率、召回率、roc曲线、auc指标

摘要：1.分类评估方法 1.1 精确率与召回率 1.1.1 混淆矩阵在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类) 1.1.2 准确率、精确率(Precision)与召回率(Recall) 准阅读全文

posted @ 2021-09-20 13:12 Trouvaille_fighting 阅读(772) 评论(0) 推荐(0)

逻辑回归3-癌症分类预测-良/恶性乳腺癌肿瘤预测

摘要：1 背景介绍数据介绍原始数据的下载地址：https://archive.ics.uci.edu/ml/machine-learning-databases/ 数据描述（1）699条样本，共11列数据，第一列用语检索的id，后9列分别是与肿瘤相关的医学特征，最后一列表示肿瘤类型的数值。（2）包阅读全文

posted @ 2021-09-19 10:34 Trouvaille_fighting 阅读(810) 评论(0) 推荐(0)

逻辑回归2-API

摘要：逻辑回归API-LogisticRegression sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0) solver可选参数:{'liblinear', 'sag', 'saga',' 阅读全文

posted @ 2021-09-19 10:25 Trouvaille_fighting 阅读(80) 评论(0) 推荐(0)

逻辑回归1-原理、损失函数、优化方案

摘要：1 逻辑回归的应用场景解决二分类问题广告点击率、是否患病、是否为垃圾邮件、虚假账号 2 逻辑回归的原理 2.1 输入逻辑回归的输入就是一个线性回归的输出 2.2 激活函数 sigmoid函数判断标准回归的结果输入到sigmoid函数当中把整体的值映射到[0,1] 再设置一个阈值，进行分类阅读全文

posted @ 2021-09-19 10:15 Trouvaille_fighting 阅读(329) 评论(0) 推荐(0)

线性回归10-模型保存和加载

摘要：1 sklearn模型的保存和加载API from sklearn.externals import joblib 保存：joblib.dump(estimator, 'test.pkl') 加载：estimator = joblib.load('test.pkl') 2 线性回归的模型保存加载案例阅读全文

posted @ 2021-09-16 17:04 Trouvaille_fighting 阅读(141) 评论(0) 推荐(0)

线性回归9-岭回归API

摘要：1 API 1.1 Ridge sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False) 具有l2正则化的线性回归 alpha:正则化力度，也叫 λ->λ取值：01 110 sol 阅读全文

posted @ 2021-09-16 16:57 Trouvaille_fighting 阅读(109) 评论(0) 推荐(0)

线性回归8-正则化线性模型

摘要：1 Ridge Regression 岭回归就是把系数添加平方项然后限制系数值的大小 α值越小，系数值越大，α越大，系数值越小岭回归代价函数: 2 Lasso 回归对系数值进行绝对值处理由于绝对值在顶点处不可导，所以进行计算的过程中产生很多0，最后得到结果为：稀疏矩阵 3 Elastic 阅读全文

posted @ 2021-09-16 16:44 Trouvaille_fighting 阅读(94) 评论(0) 推荐(0)

线性回归7-欠拟合、过拟合、正则化

摘要：1 定义过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂) 欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简阅读全文

posted @ 2021-09-16 16:30 Trouvaille_fighting 阅读(316) 评论(0) 推荐(0)

线性回归6-波士顿房价预测

摘要：1 案例背景给定的这些特征，是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用，只需要使用这些特征。到后面量化很多特征需要我们自己去寻找 2 案例分析回归当中的数据大小不一致，是否会导致结果影响较大。所以需要做标准化处理。数据分割与标准化处理回归预测线性回归的算法效果阅读全文

posted @ 2021-09-16 16:12 Trouvaille_fighting 阅读(484) 评论(0) 推荐(0)

线性回归5-正规方程及梯度下降API

摘要：1 正规方程优化 sklearn.linear_model.LinearRegression(fit_intercept=True) fit_intercept：是否计算偏置属性： LinearRegression.coef_：回归系数 LinearRegression.intercept_：偏置阅读全文

posted @ 2021-09-16 15:58 Trouvaille_fighting 阅读(101) 评论(0) 推荐(0)

线性回归4-梯度下降法介绍

摘要：1 全梯度下降算法（FG）计算训练集所有样本误差，对其求和再取平均值作为目标函数。在执行每次更新时，我们需要在整个数据集上计算所有的梯度，所以批梯度下降法的速度会很慢，同时，批梯度下降法无法处理超出内存容量限制的数据集。批梯度下降法同样也不能在线更新模型，即在运行的过程中，不能增加新的样本。阅读全文

posted @ 2021-09-16 15:46 Trouvaille_fighting 阅读(175) 评论(0) 推荐(0)

线性回归3-线性回归的损失和优化

摘要：1 损失函数总损失定义为： yi为第i个训练样本的真实值 h(xi)为第i个训练样本特征值组合预测函数又称最小二乘法我们想使得损失函数的值最小，就要通过一些优化方法去优化(即为数学当中的求导功能)回归的总损失。 2 优化算法求模型当中的W，使得损失最小（找到最小损失对应的W值）线性回归经常阅读全文

posted @ 2021-09-16 11:42 Trouvaille_fighting 阅读(513) 评论(0) 推荐(0)

线性回归2-api使用-LinearRegression

摘要：1 线性回归API 函数：sklearn.linear_model.LinearRegression() 属性即回归系数：LinearRegression.coef_ 举例：平时成绩0.5+期末成绩0.5=最终成绩 2 案例实现导入模块 from sklearn.linear_model impo 阅读全文

posted @ 2021-09-16 10:31 Trouvaille_fighting 阅读(139) 评论(0) 推荐(0)

线性回归1-简介

摘要：1 线性回归应用场景房价预测、销售额度预测、贷款额度预测 2 什么是线性回归 2.1 定义与公式定义：线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于阅读全文

posted @ 2021-09-16 10:19 Trouvaille_fighting 阅读(137) 评论(0) 推荐(0)

k近邻9-交叉验证，网格搜索优化模型

摘要：1 什么是交叉验证(cross validation) 交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过4次(组)的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证。 1.1 分析为了让从训练得到模型结阅读全文

posted @ 2021-09-13 19:30 Trouvaille_fighting 阅读(297) 评论(0) 推荐(0)

Trouvaille

持续学习...

随笔分类 - 数据分析方法

公告