摘要: 一、盖帽法介绍 数据分析中,异常值比较难于界定,一般数据异常值包括几种情况: 单值异常:结合实际业务进行判断(例如:年龄age ≥ 120岁) 相关性异常:一般收入随年龄的增长呈现类线性增长趋势,如果异常情况,需进行剔除 突发异常:激增异常,添加哑变量(有待理解?)区分(异常值 vs 强影响点) 异 阅读全文
posted @ 2021-05-05 23:58 Hider1214 阅读(2295) 评论(0) 推荐(0) 编辑
摘要: 一、定义 参考 pd.quantile() 函数实现分位数统计。 二、函数 使用语法为: np.percentile(a, q, axis=None, keepdims:bool) 参数解释: a -- array数组 用于计算分位数的对象 可以是多维数组 q -- 0-100之间的浮点数(floa 阅读全文
posted @ 2021-05-05 23:37 Hider1214 阅读(5557) 评论(0) 推荐(0) 编辑
摘要: 一、p分位数概念 原则上p是可以取0-1之间的任意值,四分位数是p分位数中较为有名的。 所谓四分位数:即把数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。 第1四分位数 (Q1):又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字 第2四分位数 (Q2):又称 阅读全文
posted @ 2021-05-05 22:08 Hider1214 阅读(7151) 评论(0) 推荐(0) 编辑
摘要: 一、背景 使用 Python 的机器学习模块 sklearn 进行模型训练时,如果训练集保持不变,可将模型训练的模型结果保存为 .model 文件,以供预测时使用,避免每次运行时都要重新训练模型。 joblib 可实现保存模型,并将保存的模型取出用于预测。 二、实操 # 导入模块 import li 阅读全文
posted @ 2021-05-05 16:05 Hider1214 阅读(4241) 评论(0) 推荐(0) 编辑
摘要: 一、random模块中的sample函数 定义和用法 sample(L, n) 从序列L中随机抽取n个元素,并将n个元素以list形式返回。 此方法不会更改原始顺序。 实例 import random mylist = ['apple', 'banana', 'cherry'] print(rand 阅读全文
posted @ 2021-05-05 01:04 Hider1214 阅读(13370) 评论(0) 推荐(0) 编辑