随笔分类 -  4数据分析与挖掘建模实战

摘要:假设检验:(原假设符合该分布,备择假设不符合该分部) 1)建立原假设H0(包含等号),H0的反命题为H1,也叫备择假设 2)选择检验统计量(根据均值,方差等性质构造的一个转换函数) 3)根据显著水平(一般为0.05),确定拒绝域 4)计算p值或样本统计值,做出判断 阅读全文
posted @ 2020-12-15 17:01 aggressive2019 阅读(108) 评论(0) 推荐(0)
摘要:, 分类模型评估: 二分类:标注分类只有两类的分类,一个类叫做二分类的正类,用1表示;另个一类叫做二分类的负类,用0表示。一般来说,正类是我们比较关注的类,比如:“员工是否离职”,离职的叫做正类,不离职的叫做负类。 注:有的时候0和1不是直接得到的,而是我们得到了一个数据在经过模型输出后,划分为正类 阅读全文
posted @ 2020-03-05 09:08 aggressive2019 阅读(194) 评论(0) 推荐(0)
摘要:分类和回归都属于监督学习,特点就是他们都有一个标注,而标注的存在就是给分类任务或者回归任务一个指引,告诉算法,具备什么样特征的数据是什么样的标注,也就是它叫什么名字,哪些数据是一样的,哪些数据是不一样的,都是通过标注来区分的。 无监督学习:没有标注,目的就是试图给这些数据加上标注,而打标注并不是随便 阅读全文
posted @ 2020-03-01 21:36 aggressive2019 阅读(330) 评论(0) 推荐(0)
摘要:线性回归: 把自变量叫特征,把因变量叫标注,只是这个标注是连续值,而不是离散值,如果多个变量间的关系用线性关系去考量,那就是线性回归;若果多个变量间用多项式关系去考量,那就是多项式回归。类似的,可以由多种回归方法,同一系列的样本,可以用线性回归去拟合; 同样,也可以用二次函数去拟合 那么,如何判断哪 阅读全文
posted @ 2020-02-28 20:41 aggressive2019 阅读(188) 评论(0) 推荐(0)
摘要:点学习:通过接收到的数据,归纳提取相同与不同 机器学习: 让计算机以数据为基础,进行归纳与总结 模型:数据解释现象的系统 机器学习: 1.监督学习(机器学习的过程有标注:相当于告诉模型,在什么样的数据特征下应该输出什么样的结果,机器学习的任务就是提炼出输入与标注间的关系,并进行预测) 根据标注是离散 阅读全文
posted @ 2020-02-24 08:42 aggressive2019 阅读(678) 评论(0) 推荐(0)
摘要:特征工程 , , 异常值(空值)处理 空值、重复值、四分位数上下1.5倍到3倍边界范围以外、业务实际情况下不允许出现的值 集中值:均值,中位数,众数等 , , , 特征选择: , , 特征变换: 对指化:将数据进行对数化和指数化的过程 指数化:将一个数进行指数变换的过程,指数的底数一般取自然底数e 阅读全文
posted @ 2020-02-22 13:55 aggressive2019 阅读(268) 评论(0) 推荐(0)
摘要:, , , , , , 阅读全文
posted @ 2020-01-19 22:20 aggressive2019 阅读(108) 评论(0) 推荐(0)
摘要:线性回归模型属于经典的统计学模型,该模型的应用场景是根据已知的变量(自变量)来预测某个连续的数值变量(因变量)。 一元线性回归模型:y=a+bx+ε import pandas as pd import matplotlib.pyplot as plt import seaborn as sns f 阅读全文
posted @ 2019-02-18 11:30 aggressive2019 阅读(1138) 评论(0) 推荐(0)