python_数据分析与挖掘实战_客户流失预测

#7-1 数据探索
# 对数据进行基本的探索
#返回缺失值个数以及最大、最小值
# encoding:utf-8
import pandas as pd
datafile = './data/air_data.csv' # 航空原始数据,第一行为属性标签
resultfile = './data/aexplore.csv' # 数据探索结果表

data = pd.read_csv(datafile, encoding = 'utf-8')
# 包括对数据的基本描述,percentiles参数是指定计算多少的分位数表(如1/4分位数、中位数等)
explore = data.describe(percentiles = [], include = 'all').T
# describe()函数自动计算非空值数,需要手动计算空值
explore['null'] = len(data)-explore['count']

explore = explore[['null','max','min']]
explore.columns = [u'空值数', u'最大值', u'最小值'] #表头重命名
'''
这里只选取部分探索结果。
describe()函数自动计算的字段有count(非空值数)、unique(唯一指数)、top(频数最高者)、
freq(最高频数)、mean(平均值)、std(方差)、min(最小值)、50%(中位数)、max(最大值)
'''
explore.to_csv(resultfile)
# 7-2 探索客户的基本信息分布情况
# 客户信息类别
# 提取会员入会年份
from datetime import datetime
import matplotlib.pyplot as plt

ffp = data['FFP_DATE'].apply(lambda x:datetime.strptime(x,'%Y/%m/%d'))
ffp_year = ffp.map(lambda x : x.year)
# 绘制各年份会员入会人数直方图
fig = plt.figure(figsize=(8,5)) # 设置画布大小
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来显示负号
plt.hist(ffp_year, bins = 'auto', color='#0504aa')
plt.xlabel('年份')
plt.ylabel('入会人数')
plt.title('各年份会员入会人数 学号3142')
plt.show()
plt.close

# 提取会员不同性别人数
male = pd.value_counts(data['GENDER'])['']
female = pd.value_counts(data['GENDER'])['']
# 绘制会员性别比例饼图
fig = plt.figure(figsize=(7, 4)) # 设置画布大小
plt.pie([male,female],labels=['',''],colors=['lightskyblue','lightcoral'],autopct='%1.1f%%')
plt.title('会员性别比例 学号3142')
plt.show()
plt.close

#提取不同级别会员的人数
lv_four = pd.value_counts(data['FFP_TIER'])[4]
lv_five = pd.value_counts(data['FFP_TIER'])[5]
lv_six = pd.value_counts(data['FFP_TIER'])[6]

#绘制会员各级别人数条形图
fig = plt.figure(figsize=(8,5)) #设置画布大小
plt.bar(x=range(3),height=[lv_four,lv_five,lv_six], width=0.4, alpha=0.8, color='skyblue')
plt.xticks([index for index in range(3)],['4','5','6'])
plt.xlabel('会员等级')
plt.ylabel('会员人数')
plt.title('会员各级别人数 学号3142')
plt.show()
plt.close

# 提取会员年龄
age = data['AGE'].dropna()
age = age.astype('int64')
# 绘图会员年龄分布箱型图
fig = plt.figure(figsize=(5, 10))
plt.boxplot(age,
           patch_artist=True,
           labels = ['会员年龄'],   # 设置x轴标题
           boxprops = {'facecolor':'lightblue'}) # 设置填充颜色
plt.title('会员年龄分布箱型图 学号3142')
# 显示y坐标的底线
plt.grid(axis='y')
plt.show()
plt.close
posted @ 2023-03-12 23:01  我刚好路过  阅读(181)  评论(0)    收藏  举报