随笔分类 -  数据分析方法

摘要:决策树的划分依据--信息增益 1 概念 1.1 定义 信息增益:以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 信息增益 = entroy(前) - entroy(后) 注 阅读全文
posted @ 2021-09-22 13:46 Trouvaille_fighting 阅读(2096) 评论(0) 推荐(0)
摘要:熵 1 概念 1.1 起源 物理学上,熵 Entropy是“混乱”程度的量度。系统越有序,熵值越低;系统越混乱或者分散,熵值越高。 1948年香农提出了信息熵(Entropy)的概念。 1.2 信息理论 从信息的完整性上描述:系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。 阅读全文
posted @ 2021-09-22 10:16 Trouvaille_fighting 阅读(649) 评论(0) 推荐(1)
摘要:决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 决策树: 一种树形结构 每个内部节点表示一个属性上的判断 每个分支代表一个判断结果的输出 最后每个叶节点代表一种分类结果 本质是一颗由多个判断节点组成的树。 此时需要用到 阅读全文
posted @ 2021-09-22 09:41 Trouvaille_fighting 阅读(70) 评论(0) 推荐(0)
摘要:1 曲线绘制 关于ROC曲线的绘制过程,通过以下举例进行说明 假设有6次展示记录,有两次被点击了,得到一个展示序列(1:1,2:0,3:1,4:0,5:0,6:0),前面的表示序号,后面的表示点击(1)或没有点击(0)。然后在这6次展示的时候都通过model算出了点击的概率序列,下面看三种情况。 1 阅读全文
posted @ 2021-09-20 13:35 Trouvaille_fighting 阅读(971) 评论(0) 推荐(0)
摘要:1.分类评估方法 1.1 精确率与召回率 1.1.1 混淆矩阵 在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类) 1.1.2 准确率、精确率(Precision)与召回率(Recall) 准 阅读全文
posted @ 2021-09-20 13:12 Trouvaille_fighting 阅读(772) 评论(0) 推荐(0)
摘要:1 背景介绍 数据介绍 原始数据的下载地址:https://archive.ics.uci.edu/ml/machine-learning-databases/ 数据描述 (1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤相关的医学特征,最后一列表示肿瘤类型的数值。 (2)包 阅读全文
posted @ 2021-09-19 10:34 Trouvaille_fighting 阅读(810) 评论(0) 推荐(0)
摘要:逻辑回归API-LogisticRegression sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0) solver可选参数:{'liblinear', 'sag', 'saga',' 阅读全文
posted @ 2021-09-19 10:25 Trouvaille_fighting 阅读(80) 评论(0) 推荐(0)
摘要:1 逻辑回归的应用场景 解决二分类问题 广告点击率、是否患病、是否为垃圾邮件、虚假账号 2 逻辑回归的原理 2.1 输入 逻辑回归的输入就是一个线性回归的输出 2.2 激活函数 sigmoid函数 判断标准 回归的结果输入到sigmoid函数当中 把整体的值映射到[0,1] 再设置一个阈值,进行分类 阅读全文
posted @ 2021-09-19 10:15 Trouvaille_fighting 阅读(329) 评论(0) 推荐(0)
摘要:1 sklearn模型的保存和加载API from sklearn.externals import joblib 保存:joblib.dump(estimator, 'test.pkl') 加载:estimator = joblib.load('test.pkl') 2 线性回归的模型保存加载案例 阅读全文
posted @ 2021-09-16 17:04 Trouvaille_fighting 阅读(141) 评论(0) 推荐(0)
摘要:1 API 1.1 Ridge sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False) 具有l2正则化的线性回归 alpha:正则化力度,也叫 λ->λ取值:01 110 sol 阅读全文
posted @ 2021-09-16 16:57 Trouvaille_fighting 阅读(109) 评论(0) 推荐(0)
摘要:1 Ridge Regression 岭回归 就是把系数添加平方项 然后限制系数值的大小 α值越小,系数值越大,α越大,系数值越小 岭回归代价函数: 2 Lasso 回归 对系数值进行绝对值处理 由于绝对值在顶点处不可导,所以进行计算的过程中产生很多0,最后得到结果为:稀疏矩阵 3 Elastic 阅读全文
posted @ 2021-09-16 16:44 Trouvaille_fighting 阅读(94) 评论(0) 推荐(0)
摘要:1 定义 过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂) 欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简 阅读全文
posted @ 2021-09-16 16:30 Trouvaille_fighting 阅读(316) 评论(0) 推荐(0)
摘要:1 案例背景 给定的这些特征,是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用,只需要使用这些特征。到后面量化很多特征需要我们自己去寻找 2 案例分析 回归当中的数据大小不一致,是否会导致结果影响较大。所以需要做标准化处理。 数据分割与标准化处理 回归预测 线性回归的算法效果 阅读全文
posted @ 2021-09-16 16:12 Trouvaille_fighting 阅读(484) 评论(0) 推荐(0)
摘要:1 正规方程优化 sklearn.linear_model.LinearRegression(fit_intercept=True) fit_intercept:是否计算偏置 属性: LinearRegression.coef_:回归系数 LinearRegression.intercept_:偏置 阅读全文
posted @ 2021-09-16 15:58 Trouvaille_fighting 阅读(101) 评论(0) 推荐(0)
摘要:1 全梯度下降算法(FG) 计算训练集所有样本误差,对其求和再取平均值作为目标函数。 在执行每次更新时,我们需要在整个数据集上计算所有的梯度,所以批梯度下降法的速度会很慢,同时,批梯度下降法无法处理超出内存容量限制的数据集。 批梯度下降法同样也不能在线更新模型,即在运行的过程中,不能增加新的样本。 阅读全文
posted @ 2021-09-16 15:46 Trouvaille_fighting 阅读(175) 评论(0) 推荐(0)
摘要:1 损失函数 总损失定义为: yi为第i个训练样本的真实值 h(xi)为第i个训练样本特征值组合预测函数 又称最小二乘法 我们想使得损失函数的值最小,就要通过一些优化方法去优化(即为数学当中的求导功能)回归的总损失。 2 优化算法 求模型当中的W,使得损失最小(找到最小损失对应的W值) 线性回归经常 阅读全文
posted @ 2021-09-16 11:42 Trouvaille_fighting 阅读(513) 评论(0) 推荐(0)
摘要:1 线性回归API 函数:sklearn.linear_model.LinearRegression() 属性即回归系数:LinearRegression.coef_ 举例:平时成绩0.5+期末成绩0.5=最终成绩 2 案例实现 导入模块 from sklearn.linear_model impo 阅读全文
posted @ 2021-09-16 10:31 Trouvaille_fighting 阅读(139) 评论(0) 推荐(0)
摘要:1 线性回归应用场景 房价预测、销售额度预测、贷款额度预测 2 什么是线性回归 2.1 定义与公式 定义:线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。 特点:只有一个自变量的情况称为单变量回归,多于 阅读全文
posted @ 2021-09-16 10:19 Trouvaille_fighting 阅读(137) 评论(0) 推荐(0)
摘要:1 什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证。 1.1 分析 为了让从训练得到模型结 阅读全文
posted @ 2021-09-13 19:30 Trouvaille_fighting 阅读(297) 评论(0) 推荐(0)