数据挖掘分析
本文对读取的csv文件,进行了求最大值、最小值、平均值、空值,最后绘制了箱式图。
1、输出数据集的基本信息
①全部数据集
1 data = pd.read_csv(r"C:\Users\Administrator\Desktop\catering_sale.csv",usecols=[0,1]) 2 3 # num = pd.Series(data,index=[i in range(size(data))]) 4 print(data)

②最大值、最小值、平均值
1 print(data.describe())

2、统计缺失的变量和样本个数
1 data_value = data['销量'].shape[0] - data['销量'].count() 2 print("缺失值数量:",data_value) 3 print("样本个数:",data['销量'].shape[0])

3、通过箱式图判断异常点
①空点为异常点
1 #解决中文显示问题 2 plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体 3 plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题 4 fig,axes = plt.subplots() 5 data.boxplot(column='销量',ax=axes) 6 # column参数表示要绘制成箱形图的数据,可以是一列或多列 7 # by参数表示分组依据 8 9 axes.set_ylabel('values of data') 10 fig.savefig(r'存储路径')

②密集点外的为异常点
1 #解决中文显示问题 2 plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体 3 plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题 4 fig,axes = plt.subplots() 5 data.boxplot(column='销量',by=['日期','销量'],ax=axes) 6 # column参数表示要绘制成箱形图的数据,可以是一列或多列 7 # by参数表示分组依据 8 9 axes.set_ylabel('values of data') 10 fig.savefig(r'存储路径')

4、完整代码
1 import pandas as pd 2 import numpy as nm 3 import matplotlib.pyplot as plt 4 5 6 data = pd.read_csv(r"csv文件的绝对路径",usecols=[0,1])//usecols表示读出的列 7 8 # num = pd.Series(data,index=[i in range(size(data))]) 9 print(data) 10 print(data.describe()) 11 data_value = data['销量'].shape[0] - data['销量'].count() 12 print("缺失值数量:",data_value) 13 print("样本个数:",data['销量'].shape[0]) 14 15 #解决中文显示问题 16 plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体 17 plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题 18 fig,axes = plt.subplots() 19 data.boxplot(column='销量',by=['日期','销量'],ax=axes) 20 # column参数表示要绘制成箱形图的数据,可以是一列或多列 21 # by参数表示分组依据 22 23 axes.set_ylabel('values of data') 24 fig.savefig(r'存储图片的路径')

浙公网安备 33010602011771号