输出数据集信息,统计缺失变量样本,箱式图判断异常点

输出数据集信息,统计缺失变量样本,箱式图判断异常点

一:任务内容:

1.输出数据集的基本信息

2.统计缺失的变量和样本个数

3.通过箱式图判断异常点

二.实现过程及代码

1.输出数据集的基本信息

读取csv:

import pandas as pd
data=pd.read_csv(r'C:\Users\许元宵\Desktop\catering_sale.csv')
data

 

 

最大值:

max=data['销量'].max()
data.loc[data['销量']==max]

 

 

最小值:

min=data['销量'].min()
data.loc[data['销量']==min]

 

 

平均值:

data['销量'].mean()

 

 

2.统计缺失的变量和样本个数

data.isnull().sum()
#data['销量'].isnull().sum()
#data['日期'].isnull().sum()

 

 样本个数:

data.shape[0]

 

 

3.通过箱式图判断异常点

plt.rcParams['font.sans-serif'] = ['SimHei']#指定字体为黑体
plt.rcParams['axes.unicode_minus'] = False#显示负号
plt.figure()
p = data.boxplot(return_type='dict')#画箱式图
x = p['fliers'][0].get_xdata()#fliers为异常值标签,get_xdata()与get_ydata()用来获取横纵坐标数组
y = p['fliers'][0].get_ydata()
y.sort()
#使用annotate添加注释,xy表示标注点坐标, xytext表示注释坐标
for i in range(len(x)):
    if i > 0:
        plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i]+0.05 - 0.8/(y[i]-y[i-1]), y[i]))
    else:
        plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i]+0.08, y[i]))
 
plt.show()

 

posted @ 2021-03-12 15:41  许元宵  阅读(191)  评论(1)    收藏  举报