数据质量分析
1.输出数据集的基本信息(最大值,最小值,平均值)
import pandas as pd # 文件路径 path = r'C:\Users\32762\Desktop\catering_sale.csv' # 读取数据 data = pd.read_csv(path, encoding='utf-8')
# 查看数据 print(data) # 输出最大值 print(data.max()) # 输出最小值 print(data.min()) # 输出平均值 print(data.mean()) # 输出数量,平均值,标准差,最小值,处于25%、50%、75%三个分割点位置的数值,最大值 print(data.describe())
data.describe()的输出截图:

2.统计缺失的变量和样本个数
# 统计缺失值 print(data.isnull().sum())

3.通过箱式图判断异常点
import pandas as pd from matplotlib import pyplot as plt import matplotlib as mpl #使图片标题可以显示中文 path = r'C:\Users\32762\Desktop\catering_sale.csv' data = pd.read_csv(path, encoding='utf-8') data_df = pd.DataFrame(data) series1 = data_df.isnull().sum(axis=1) for i in range(len(series1)): if series1[i] != 0: data_df.drop([i], inplace=True) #删除缺失值,否则无法显示箱式图 print(data_df) mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体 plt.title("箱式图", fontsize=20) # 指定标题 plt.ylabel("销量", fontsize=10) # 指定Y坐标轴的标签,并设置标签字体大小 plt.boxplot(data_df['销量'], sym='o') plt.show()

浙公网安备 33010602011771号