航空公司客户价值分析及客户流失判断

一、航空公司客户价值分析

1 描述性统计分析

输出结果表:

2 分布分析
客户基本信息分布分析

各年份会员入会人数图

会员性别比例饼图

#提取会员不同性别人数
male = pd.value_counts(data['GENDER'])['男']
female = pd.value_counts(data['GENDER'])['女']
#绘制会员性别比例饼图
fig = plt.figure(figsize=(7, 4)) #设置画布大小
plt.pie([male, female], labels=['男', '女'], colors=['lightskyblue', 'lightcoral'], autopct='%1.1f%%')
plt.title('3115会员性别比例')
plt.show()
plt.close()

不同级别会员的人数

 会员年龄分布箱型图

 

 会员最后乘机至结束时长分布箱型图

lte = data['LAST_TO_END']
fc = data['FLIGHT_COUNT']
sks = data['SEG_KM_SUM']
fig = plt.figure(figsize=(5,8))
plt.boxplot(lte, patch_artist=True, labels=['时长'], boxprops={'facecolor': 'lightblue'}) #设置填充颜色
plt.title('3115会员最后乘机至结束时长分布箱型图')
#显示y坐标轴的底线
plt.grid(axis='y')
plt.show()
plt.close()

 会员飞行次数分布箱线图

 客户总飞行公里数箱线图

 

 会员兑换积分次数分布直方图

 客户总累计积分箱线图

 

相关性矩阵

热力图

3.数据预处理
数据清洗

 

 

筛选的属性前5行为

 

构建的LRFMC属性前5行为

 

 

标准化后LRFMC五个属性

 

K-means聚类

 

客户特征分析雷达图

 

 二、客户流失判断

1.数据清洗

导入数据

删除缺失值所在行

检查是否有缺失值

重复值处理

 异常值处理

 没有发现异常值。

2.可视化分析

流失客户占比情况

 

性别、老年人、配偶、亲属对流客户流失率的影响

提取特征

 构造相关性矩阵

系数矩阵展示情况热力图

charges=telcon.iloc[:,1:20]

corrdf=charges.apply(lambda x:pd.factorize(x)[0])

corr=corrdf.corr()

# '''

# heatmap 使用热力图展示系数矩阵情况

# linewidths 热力图矩阵之间的间隔大小

# annot  设定是否显示每个色块系数值

# '''

plt.figure(figsize=(30,20))

ax=sns.heatmap(corr,xticklabels=corr.columns,yticklabels=corr.columns,linewidths=0.2,cmap='YlGnBu',annot=True)

plt.title('3115系数矩阵展示情况热力图')

plt.savefig('3115系数矩阵展示情况热力图.png')

plt.show()

网络安全服务、在线备份业务、设备保护业务、技术支持服务、网络电视、网络电影和无互联网服务对客户流失率的影响 

covariable=['OnlineSecurity','OnlineBackup','DeviceProtection','TechSupport','StreamingTV','StreamingMovies']
plt.figure(figsize=(17,10))
for i,item in enumerate(covariable):
plt.subplot(2,3,(i+1))
ax=sns.countplot(x=item,hue='Churn',data=telcom,palette='Set2',order=['Yes','No','No internet service'])
plt.xlabel(str(item))
plt.title('3115Churn by'+str(item))
i=i+1
plt.show()

签订合同方式对客户流失率的影响

ax=sns.barplot(x='Contract',y='Churn',data=telcom,palette='Set2',order=['Month-to-month','One year','Two year'])
# seaborn 的 barplot() 利用矩阵条的高度反映数值变量的集中趋势,bar plot 展示的是某种变量分布的平均值,
# 当需要精确观察每类变量的分布趋势,boxplot 与 violinplot 往往是更好的选择。
plt.title('3115Churn by Contract type')
plt.savefig('3115Churn by Contract type.png')
plt.show()

付款方式对客户流失率的影响

plt.figure(figsize=(10,5))
ax=sns.barplot(x='PaymentMethod',y='Churn',data=telcom,palette='Set2',order=['Bank transfer (automatic)','Credit card (automatic)','Electronic check','Mailed check'])
plt.title('3115Churn by PaymentMethod type')
plt.show()

 

总结:

流失客户占整体客户的26.5%,男性与女性用户之间的流失情况基本没有差异,而在老年用户中流失占比明显比非老年用户更高,在所有数据中未婚与已婚人数基本持平,但未婚中流失人数比已婚中的流失人数高出了快一倍,从经济独立情况来看,经济未独立的用户流失率要远远高于经济独立的用户。

互联网服务、网络安全服务、在线备份业务、设备保护业务、技术支持服务、网络电视和网络电影之间存在较强的相关性,多线业务和电话服务之间也有很强的相关性,并且都呈强正相关关系。在网络安全服务、在线备份业务、设备保护业务、技术支持服务、网络电视和网络电影六个变量中,没有互联网服务的客户流失率值是相同的,都是相对较低。这可能是因为以上六个因素只有在客户使用互联网服务时才会影响客户的决策,这六个因素不会对不使用互联网服务的客户决定是否流失产生推论效应。

签订合同方式对客户流失率影响为:按月签订 > 按一年签订 > 按两年签订,这可能表明,设定长期合同对留住现有客户更有效。在四种支付方式中,使用Electronic check的用户流流失率最高,其他三种支付方式基本持平,因此可以推断电子账单在设计上影响用户体验。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

posted @ 2023-03-12 22:54  小北123799498  阅读(324)  评论(0)    收藏  举报