数据质量分析

1、输出数据集的基本信息

①全部数据集

import numpy as np
import pandas as pd
datas=pd.read_csv('D:\software\Sublime Text Build 3059 x64\catering_sale.csv')
datas

②最大值、最小值、平均值

print("最大值")
data_max=datas.max()
data_max

最大值
日期    2015-03-01
销量       9106.44
dtype: object

print("最小值")
data_min=datas.min()
data_min

最小值
日期    2014-08-02
销量            22
dtype: object

print("平均值")
data=datas.mean()
data

平均值
销量    2755.2147
dtype: float64

data_std=datas.std()
data_std

 

销量    751.029772
dtype: float64

2、统计缺失的变量和样本个数

datas.isnull()
datas['销量'].isnull()
datas.info()
missing_value=datas['销量'].shape[0]-datas['销量'].count()
missing_rate=missing_value/datas['销量'].shape[0]
missing_value

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 201 entries, 0 to 200
Data columns (total 2 columns):
日期    201 non-null object
销量    200 non-null float64
dtypes: float64(1), object(1)
memory usage: 3.2+ KB
1

3、通过箱式图判断异常点

%matplotlib notebook
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

plt.rcParams['font.sans-serif']=[u'SimHei']
plt.rcParams['axes.unicode_minus']=False

fig,axes=plt.subplots()
datas.boxplot(column='销量',by=['日期','销量'],ax=axes)

axes.set_ylabel('values of tip_pct')
fig.savefig('p.png')

%matplotlib notebook
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

plt.rcParams['font.sans-serif']=[u'SimHei']
plt.rcParams['axes.unicode_minus']=False

fig,axes=plt.subplots()
datas.boxplot(column='销量',ax=axes)

axes.set_ylabel('values of tip_pct')
fig.savefig('p.png')

以上就是本次实验的全部,欢迎大家评论!

posted @ 2021-03-12 14:41  暗夜深林  阅读(159)  评论(2)    收藏  举报