数据处理-输出数据最大值等
1、输出数据集的基本信息
①全部数据集
1 data = pd.read_csv(r"C:\Users\Administrator\Desktop\catering_sale.csv",usecols=[0,1]) 2 3 # num = pd.Series(data,index=[i in range(size(data))]) 4 print(data)

②最大值、最小值、平均值
1 print(data.describe())

2、统计缺失的变量和样本个数
1 data_value = data['销量'].shape[0] - data['销量'].count()
2 print("缺失值数量:",data_value)
3 print("样本个数:",data['销量'].shape[0])

3、通过箱式图判断异常点
①空点为异常点
1 #解决中文显示问题
2 plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体
3 plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
4 fig,axes = plt.subplots()
5 data.boxplot(column='销量',ax=axes)
6 # column参数表示要绘制成箱形图的数据,可以是一列或多列
7 # by参数表示分组依据
8
9 axes.set_ylabel('values of data')
10 fig.savefig(r'存储路径')

②密集点外的为异常点
1 #解决中文显示问题
2 plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体
3 plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
4 fig,axes = plt.subplots()
5 data.boxplot(column='销量',by=['日期','销量'],ax=axes)
6 # column参数表示要绘制成箱形图的数据,可以是一列或多列
7 # by参数表示分组依据
8
9 axes.set_ylabel('values of data')
10 fig.savefig(r'存储路径')

4、完整代码
1 import pandas as pd
2 import numpy as nm
3 import matplotlib.pyplot as plt
4
5
6 data = pd.read_csv(r"csv文件的绝对路径",usecols=[0,1])//usecols表示读出的列
7
8 # num = pd.Series(data,index=[i in range(size(data))])
9 print(data)
10 print(data.describe())
11 data_value = data['销量'].shape[0] - data['销量'].count()
12 print("缺失值数量:",data_value)
13 print("样本个数:",data['销量'].shape[0])
14
15 #解决中文显示问题
16 plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体
17 plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
18 fig,axes = plt.subplots()
19 data.boxplot(column='销量',by=['日期','销量'],ax=axes)
20 # column参数表示要绘制成箱形图的数据,可以是一列或多列
21 # by参数表示分组依据
22
23 axes.set_ylabel('values of data')
24 fig.savefig(r'存储图片的路径')

浙公网安备 33010602011771号