摘要: 案例基于热水器采集的时间序列数据,将顺序排列的离散的用水时间节点根据水流量和停顿时间间隔划分不同大小的时间区间,每个时间区间可以理解成一次完整用水事件。 定义挖掘目标如下:1.根据热水器采集到的数据,划分一次完整的用水事件2.在划分好的一次完整用水事件中,识别出洗浴事件 数据分析步骤:1.预处理热水 阅读全文
posted @ 2022-04-22 01:05 mariow 阅读(423) 评论(0) 推荐(0)
摘要: 1.求取企业所得税各特征间的相关系数(1)求取原始数据特征之间的Pearson相关系数。(2)判断各特征之间的相关性。 #求取企业所得税各特征间的相关系数 import numpy as np import pandas as pd inputfile = 'income_tax.csv' #读取数 阅读全文
posted @ 2022-04-22 00:45 mariow 阅读(953) 评论(0) 推荐(0)
摘要: 一、相关知识点 1.相关性分析:相关性分析是指对两个或多个具备相关型的特征元素进行分析,从而衡量两个特征因素的相关密切程度。在统计学中,常用到Pearson相关系数来进行相关性分析。Pearson相关系数可用来度量两个特征间的相互关系(线性相关强弱),是最简单的一种相关系数,常用r或ρ来表示,取值范 阅读全文
posted @ 2022-04-22 00:30 mariow 阅读(559) 评论(0) 推荐(0)
摘要: 1.处理数据异常值:(1) 丢弃逾期,呆账,强制停卡,退票记录,拒往记录为 1 ,瑕疵户为 2 的记录 。(2) 丢弃呆账,强制停卡,退票为 1 ,拒往记录为 2 的记录。(3) 丢弃频率为 5 ,刷卡金额不等于 1 的数据。 ```pythonimport pandas as pdimport n 阅读全文
posted @ 2022-04-22 00:05 mariow 阅读(1021) 评论(0) 推荐(1)