2020年10月25日

数据分析模型之KS曲线

该文被密码保护。 阅读全文

posted @ 2020-10-25 20:52 勿要 阅读(1) 评论(0) 推荐(0)

数据分析模型之Logistics回归

摘要: Logistic回归 研究的是分类问题(是或否),跟之前的线性回归、岭回归、Lasso回归不同(连续型或有规律的数据)也称之为广义线性回归公式层面上就是由多元线性回归公式做Logit变换得到。 混淆矩阵 ROC曲线 KS曲线 Logistics函数说明 LogisticRegression(tol= 阅读全文

posted @ 2020-10-25 20:50 勿要 阅读(1148) 评论(0) 推荐(0)

数据分析之岭回归Lasso回归

摘要: 岭回归 解决线性回归参数β可能出现的不合理的情况,当出现自变量的数量多余样本数的数量或自变量之间存在多重共线性的情况时回归系数无法按照模型公式来计算估计值实现思路就是在原来线性回归的基础之上加一个l2惩罚项(正则项) 交叉验证 让所有的数据都参与模型的构建和模型的测试(10重交叉验证)100样本量拆 阅读全文

posted @ 2020-10-25 20:21 勿要 阅读(1846) 评论(0) 推荐(0)

数据分析模型之朴素贝叶斯模型

摘要: 模型思想 该分类器的实现思想⾮常简单,即通过已知类别的训练数据集,计算样本的先验概率,然后利⽤⻉叶斯概率公式测算未知类别样本属于某个类别的后验概率,最终以最⼤后验概率所对应的类别作为样本的预测值。 先验概率 先验概率:指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因" 阅读全文

posted @ 2020-10-25 20:08 勿要 阅读(301) 评论(0) 推荐(0)

数据分析模型之K邻近模型

摘要: K邻近模型 既可以预测分类问题,也适用于连续性变量预测问题 对于离散型的因变量时,在k个已知类别样本总挑选出频率最高的类别用于位置样本的判断。 对于连续性的因变量时,将k个最近的一直样本均值用作为止样本的预测。 K值的选择 由于K值的不稳定型会直接影响预测值的偏差。所以可以在KNN算法中添加其他处理 阅读全文

posted @ 2020-10-25 19:10 勿要 阅读(427) 评论(0) 推荐(0)

导航