数据质量分析
1、输出数据集的基本信息
①全部数据集
import numpy as np import pandas as pd datas=pd.read_csv('D:\software\Sublime Text Build 3059 x64\catering_sale.csv') datas
②最大值、最小值、平均值
print("最大值") data_max=datas.max() data_max 最大值 日期 2015-03-01 销量 9106.44 dtype: object print("最小值") data_min=datas.min() data_min 最小值 日期 2014-08-02 销量 22 dtype: object
print("平均值")
data=datas.mean()
data
data_std=datas.std()
data_std
销量 751.029772 dtype: float64
2、统计缺失的变量和样本个数
datas.isnull() datas['销量'].isnull() datas.info() missing_value=datas['销量'].shape[0]-datas['销量'].count() missing_rate=missing_value/datas['销量'].shape[0] missing_value <class 'pandas.core.frame.DataFrame'> RangeIndex: 201 entries, 0 to 200 Data columns (total 2 columns): 日期 201 non-null object 销量 200 non-null float64 dtypes: float64(1), object(1) memory usage: 3.2+ KB 1
3、通过箱式图判断异常点
①
%matplotlib notebook import matplotlib.pyplot as plt import pandas as pd import numpy as np plt.rcParams['font.sans-serif']=[u'SimHei'] plt.rcParams['axes.unicode_minus']=False fig,axes=plt.subplots() datas.boxplot(column='销量',by=['日期','销量'],ax=axes) axes.set_ylabel('values of tip_pct') fig.savefig('p.png')

②
%matplotlib notebook import matplotlib.pyplot as plt import pandas as pd import numpy as np plt.rcParams['font.sans-serif']=[u'SimHei'] plt.rcParams['axes.unicode_minus']=False fig,axes=plt.subplots() datas.boxplot(column='销量',ax=axes) axes.set_ylabel('values of tip_pct') fig.savefig('p.png')

以上就是本次实验的全部,欢迎大家评论!

浙公网安备 33010602011771号