对csv数据集进行基本操作

一、问题描述

1,输出数据集的基本信息,比如最大值,最小值,平均值;

2,统计缺失的变量和样本个数;

3,通过箱式图判断异常点。

二、代码及运行结果

1.输出数据集的基本信息,比如最大值,最小值,平均值

#显示基本信息
import
numpy as np import pandas as pd data=pd.read_csv('catering_sale.csv', encoding = 'gb2312') data

 

 

#最大值
data['销量'].max()
data[data['销量']==data['销量'].max()]

#最小值
data['销量'].min()
data[data['销量']==data['销量'].min()]

 

#均值
data['销量'].mean()

 

 2.统计缺失的变量和样本个数

 

 3.通过箱式图判断异常点

1)

#通过箱式图判断异常点。
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
#显示中文
plt.rcParams['font.sans-serif'] = [u'SimHei']
plt.rcParams['axes.unicode_minus'] = False

fig,axes = plt.subplots()
data.boxplot(column='销量',ax=axes)
# column参数表示要绘制成箱形图的数据,可以是一列或多列
# by参数表示分组依据
 
axes.set_ylabel('values of tip_pct')
fig.savefig('p.png')   # 将绘制的图形保存为p.png

 

 2)

#通过箱式图判断异常点。
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
#显示中文
plt.rcParams['font.sans-serif'] = [u'SimHei']
plt.rcParams['axes.unicode_minus'] = False

fig,axes = plt.subplots()
data.boxplot(column='销量',by=['日期','销量'],ax=axes)
# column参数表示要绘制成箱形图的数据,可以是一列或多列
# by参数表示分组依据
 
axes.set_ylabel('values of tip_pct')
fig.savefig('p.png')   # 将绘制的图形保存为p.png

 

 

posted @ 2021-03-12 15:05  次惑小技术啊  阅读(618)  评论(1)    收藏  举报