数据质量分析

1.输出数据集的基本信息(最大值,最小值,平均值)

import pandas as pd
# 文件路径
path = r'C:\Users\32762\Desktop\catering_sale.csv'
# 读取数据
data = pd.read_csv(path, encoding='utf-8')
# 查看数据 print(data) # 输出最大值 print(data.max()) # 输出最小值 print(data.min()) # 输出平均值 print(data.mean()) # 输出数量,平均值,标准差,最小值,处于25%、50%、75%三个分割点位置的数值,最大值 print(data.describe())

data.describe()的输出截图:

 

 

 

2.统计缺失的变量和样本个数

# 统计缺失值
print(data.isnull().sum())

 

 

 

3.通过箱式图判断异常点

import pandas as pd
from matplotlib import pyplot as plt
import matplotlib as mpl     #使图片标题可以显示中文
path = r'C:\Users\32762\Desktop\catering_sale.csv'
data = pd.read_csv(path, encoding='utf-8')
data_df = pd.DataFrame(data)

series1 = data_df.isnull().sum(axis=1)
for i in range(len(series1)):
    if series1[i] != 0:
        data_df.drop([i], inplace=True) #删除缺失值,否则无法显示箱式图
print(data_df)
mpl.rcParams['font.sans-serif'] = ['FangSong']  # 指定默认字体
plt.title("箱式图", fontsize=20)  # 指定标题
plt.ylabel("销量", fontsize=10)  # 指定Y坐标轴的标签,并设置标签字体大小
plt.boxplot(data_df['销量'], sym='o')
plt.show()

 


 

posted on 2021-03-14 14:51  01xx10  阅读(117)  评论(1)    收藏  举报