对csv数据集进行基本操作
一、问题描述
1,输出数据集的基本信息,比如最大值,最小值,平均值;
2,统计缺失的变量和样本个数;
3,通过箱式图判断异常点。
二、代码及运行结果
1.输出数据集的基本信息,比如最大值,最小值,平均值
#显示基本信息
import numpy as np import pandas as pd data=pd.read_csv('catering_sale.csv', encoding = 'gb2312') data



#最大值 data['销量'].max() data[data['销量']==data['销量'].max()]

#最小值 data['销量'].min() data[data['销量']==data['销量'].min()]

#均值 data['销量'].mean()

2.统计缺失的变量和样本个数

3.通过箱式图判断异常点
1)
#通过箱式图判断异常点。 import matplotlib.pyplot as plt import pandas as pd import numpy as np #显示中文 plt.rcParams['font.sans-serif'] = [u'SimHei'] plt.rcParams['axes.unicode_minus'] = False fig,axes = plt.subplots() data.boxplot(column='销量',ax=axes) # column参数表示要绘制成箱形图的数据,可以是一列或多列 # by参数表示分组依据 axes.set_ylabel('values of tip_pct') fig.savefig('p.png') # 将绘制的图形保存为p.png

2)
#通过箱式图判断异常点。 import matplotlib.pyplot as plt import pandas as pd import numpy as np #显示中文 plt.rcParams['font.sans-serif'] = [u'SimHei'] plt.rcParams['axes.unicode_minus'] = False fig,axes = plt.subplots() data.boxplot(column='销量',by=['日期','销量'],ax=axes) # column参数表示要绘制成箱形图的数据,可以是一列或多列 # by参数表示分组依据 axes.set_ylabel('values of tip_pct') fig.savefig('p.png') # 将绘制的图形保存为p.png


浙公网安备 33010602011771号