数据集的基本信息及统计、数据异常分析

对csv文件输出数据集的基本信息,如最大值、最小值、平均值等。

1.读取csv文件,并显示

import numpy as np
import pandas as pd
#读取csv文件,并显示csv文件
dataset=pd.read_csv('catering_sale.csv')
dataset

 

 2,平均值

#平均值
data=dataset.mean()
data

 

 3,最大值

#最大值
data_max=dataset.max()
data_max

 

 4,最小值

#最小值
data_min=dataset.min()
data_min

 

 5,方差

#方差
data_var=dataset.var()
data_var

 

 6,标准差

#标准差
data_std=dataset.std()
data_std

 

 7,中值

#中值
data_median=dataset.median()
data_median

 

 8,求和

#求和
data_sum=dataset.sum()
data_sum

 

 9,累积和

#累积和
data_cumsum=dataset.cumsum()
data_cumsum

 

 10,缺失值判断及统计

#判断是否有缺失
np.all(pd.notnull(dataset))#False,表示有缺失

#查看所有列是否有缺失
pd.isnull(dataset).any()#True表示有缺失,False表示没有缺失

#统计缺失的变量
pd.notnull(dataset)#False表示缺失

#统计缺失的样本个数
dataset.info()
missing_value=dataset['销量'].shape[0]-dataset['销量'].count()
missing_value

 

 

 

 

 

 

 

 11,通过箱式图判断异常点

%matplotlib notebook
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

#在图中显示中文
plt.rcParams['font.sans-serif'] = [u'SimHei']
plt.rcParams['axes.unicode_minus'] = False

#绘制箱式图
fig,axes = plt.subplots()
dataset.boxplot(column='销量',by=['日期','销量'],ax=axes)
# column参数表示要绘制成箱形图的数据,可以是一列或多列
# by参数表示分组依据
 
axes.set_ylabel('销量')
fig.savefig('p3.png')   # 将绘制的图形保存为p3.png

 

 

plt.rcParams['font.sans-serif'] = [u'SimHei']
plt.rcParams['axes.unicode_minus'] = False

#绘制单个箱式图
fig,axes = plt.subplots()
dataset.boxplot(column='销量',ax=axes)
# column参数表示要绘制成箱形图的数据,可以是一列或多列
# by参数表示分组依据
 
axes.set_ylabel('销量')
fig.savefig('p4.png')   # 将绘制的图形保存为p4.png

 

posted @ 2021-03-12 15:47  罗罗~  阅读(750)  评论(1)    收藏  举报