数据处理-输出数据最大值等

1、输出数据集的基本信息

①全部数据集

1 data = pd.read_csv(r"C:\Users\Administrator\Desktop\catering_sale.csv",usecols=[0,1])
2 
3 # num = pd.Series(data,index=[i in range(size(data))])
4 print(data)

②最大值、最小值、平均值

 1 print(data.describe()) 

2、统计缺失的变量和样本个数

1 data_value = data['销量'].shape[0] - data['销量'].count()
2 print("缺失值数量:",data_value)
3 print("样本个数:",data['销量'].shape[0])

3、通过箱式图判断异常点

①空点为异常点

复制代码
 1 #解决中文显示问题
 2 plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体
 3 plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
 4 fig,axes = plt.subplots()
 5 data.boxplot(column='销量',ax=axes)
 6 # column参数表示要绘制成箱形图的数据,可以是一列或多列
 7 # by参数表示分组依据
 8  
 9 axes.set_ylabel('values of data')
10 fig.savefig(r'存储路径')
复制代码

②密集点外的为异常点

复制代码
 1 #解决中文显示问题
 2 plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体
 3 plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
 4 fig,axes = plt.subplots()
 5 data.boxplot(column='销量',by=['日期','销量'],ax=axes)
 6 # column参数表示要绘制成箱形图的数据,可以是一列或多列
 7 # by参数表示分组依据
 8  
 9 axes.set_ylabel('values of data')
10 fig.savefig(r'存储路径')
复制代码

 

 

4、完整代码

复制代码
 1 import pandas as pd
 2 import numpy as nm
 3 import matplotlib.pyplot as plt
 4 
 5 
 6 data = pd.read_csv(r"csv文件的绝对路径",usecols=[0,1])//usecols表示读出的列
 7 
 8 # num = pd.Series(data,index=[i in range(size(data))])
 9 print(data)
10 print(data.describe())
11 data_value = data['销量'].shape[0] - data['销量'].count()
12 print("缺失值数量:",data_value)
13 print("样本个数:",data['销量'].shape[0])
14 
15 #解决中文显示问题
16 plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体
17 plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
18 fig,axes = plt.subplots()
19 data.boxplot(column='销量',by=['日期','销量'],ax=axes)
20 # column参数表示要绘制成箱形图的数据,可以是一列或多列
21 # by参数表示分组依据
22  
23 axes.set_ylabel('values of data')
24 fig.savefig(r'存储图片的路径')
posted @ 2021-03-12 15:10  超级玛丽o  阅读(100)  评论(0)    收藏  举报