随笔分类 -  数据分析与挖掘

时下大热的数据潮流,有枯燥概念,有算法笔记,有代码实现,简繁不一
摘要:时间类型数据的转换(字符串转为时间) pd.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_ 阅读全文
posted @ 2018-07-28 09:35 WoLykos 阅读(1174) 评论(0) 推荐(0)
摘要:一、3σ原则 3σ原则又称为拉依达准则,该准则具体来说,就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。 正态分布状况下,数值分布表: 注:在正态分布中σ代表标准差,μ代表均值,x=μ为图形的对称轴 二、箱线图 阅读全文
posted @ 2018-07-28 09:15 WoLykos 阅读(13232) 评论(0) 推荐(0)
摘要:数据导入可见:《Python之Pandas知识点》 此文图方便,就直接输入数据了。 1缺失值处理 1.1删除法 DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) axis:表示轴向。默认为0,表示 阅读全文
posted @ 2018-07-28 08:54 WoLykos 阅读(3581) 评论(0) 推荐(0)
摘要:很多时候在数据分析之前,我们需要对样本进行校验,以确定样本的价值。 先写入数据: 1完整性校验 笔记:这里也可以用到describe方法,如下: 忘了describe方法的话,请查看《Python之Pandas知识点》 2时间跨度检验 很多样本的时间数据并不是以datatime64类型存储的,此时我 阅读全文
posted @ 2018-07-25 22:31 WoLykos 阅读(1963) 评论(0) 推荐(0)
摘要:很多人都分不清Numpy,Scipy,pandas三个库的区别。 在这里简单分别一下: NumPy:数学计算库,以矩阵为基础的数学计算模块,包括基本的四则运行,方程式以及其他方面的计算什么的,纯数学; SciPy :科学计算库,有一些高阶抽象和物理模型,在NumPy基础上,封装了一层,没有那么纯数学 阅读全文
posted @ 2018-07-22 11:49 WoLykos 阅读(8469) 评论(0) 推荐(3)