电商平台零售数据分析
1电商平台零售数据分析
环境为Anaconda3,Python3.8,用JupyterNotebook写的
数据文件在百度网盘
链接:https://pan.baidu.com/s/1DwWF4Vpduj8SqRUUezt4ew
提取码:2222
import plotly as py
py.offline.init_notebook_mode()
pyplot = py.offline.iplot
import plotly.graph_objs as go
from plotly.graph_objs import Scatter
from scipy import stats
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os
os.chdir(r'E:\2020年Python数据分析师特训营全套84节视频完结版(就业向零基础友好)\2020年Python数据分析师特训营全套84节视频完结版')
df = pd.read_excel('超市数据.xlsx', dtype= {'Row ID':str})
df
#缺失率
df.apply(lambda x:sum(x.isnull())/len(x),axis=0)
#拷贝原文件为df1,防止数据丢失
df1 = df.copy()
df1
#去掉有缺失值的数据
df1.dropna(how='any')
# #去掉指定的两列
# df1.drop(['Unnamed: 24','Unnamed: 25'],axis=1,inplace=True)
#将Shipping Cost这一列中的缺失值替换为U
df['Shipping Cost'] = df['Shipping Cost'].fillna('U')
#先导入re模块,可以使用split一次加入多个切割条件
import re
#取出Ship Date这一列的每行字符串中以/分隔开的第一、二、三个元素
df1['ship_day'] = [re.split('\/|\-',x)[0] for x in df1['Ship Date']]
df1['ship_month'] = [re.split('\/|\-',x)[1] for x in df1['Ship Date']]
df1['ship_year'] = [re.split('\/|\-',x)[2] for x in df1['Ship Date']]
#将Order Date转换为datetime格式
df1['Order Date'] = pd.to_datetime(df1['Order Date'],errors='coerce')
df1['Order Date'] = df1['Order Date'].dt.date
#去重
df1 = df1.drop_duplicates()
#查看数据类型
df1.info()
#异常值处理之前先探索数据
df1.describe()
#将Sales Quantity Profit转换为float64
df1['Sales'] = pd.to_numeric(df1['Sales'], errors='coerce')
df1['Quantity'] = pd.to_numeric(df1['Quantity'], errors='coerce')
df1['Profit'] = pd.to_numeric(df1['Profit'], errors='coerce')
#计算Sales*Quantity保存为新的一列Price
df1['Price'] = df1.apply(lambda x:x['Sales']*x['Quantity'],axis=1)
df1.info()
df1
#异常值处理
df3 = df1.loc[df1['Quantity']<=0]
#计算异常值占比
df3.shape[0]/df1.shape[0]
#对异常值中的数量分类计数
df3['Quantity'].groupby(df3['Quantity']).count()
#df3中不同的年对应的不同的月份的退货金额
tt=pd.pivot_table(df3,index=['ship_year'],columns=['ship_month'],values=['Price'],aggfunc={'Price':np.sum},margins=False)
tt
#计算Profit>0的数量Quantity并按照State分组求和,按照降序排列,显示前十行,保存为quantity_first_10
quantity_first_10=df1[df1['Profit']>0].groupby(by='State').sum()['Quantity'].sort_values(ascending=False).head(10)
#画图
trace_basic=[go.Bar(x=quantity_first_10.index.tolist(),y=quantity_first_10.values.tolist(),marker=dict(color='orange'),opacity=0.50)]
layout=go.Layout(title='购买数量前十的国家',xaxis=dict(title='国家'))
figure_basic=go.Figure(data=trace_basic,layout=layout)
pyplot(figure_basic)
#交易额前十
price_first_10=df1[df1['Profit']>0].groupby(by='State').sum()['Price'].sort_values(ascending=False).head(10)
trace_basic1=[go.Bar(x=price_first_10.index.tolist(),y=price_first_10.values.tolist(),marker=dict(color='orange'),opacity=0.50)]
layout1=go.Layout(title='交易额前十的国家',xaxis=dict(title='国家'))
figure_basic1=go.Figure(data=trace_basic1,layout=layout1)
pyplot(figure_basic1)
#将Order Date转换为datetime格式
df1['Order Date'] = pd.to_datetime(df['Order Date'],errors='coerce')
#提取Order Date中的月份
df1['Month'] = df1['Order Date'].dt.month
#十二个月份盈利
profit_12=df1[df1['Profit']>0].groupby(by='Month').sum()['Profit'].sort_values(ascending=False)
trace_basic2=[go.Bar(x=profit_12.index.tolist(),y=profit_12.values.tolist(),marker=dict(color='orange'),opacity=0.50)]
layout2=go.Layout(title='十二个月份盈利条形图',xaxis=dict(title='月份'))
figure_basic2=go.Figure(data=trace_basic2,layout=layout2)
pyplot(figure_basic2)
#seaborn画图
sns.set(style='darkgrid',context='notebook',font_scale=1.2)
profit_12=df1[df1['Profit']>0].groupby(by='Month').sum()['Profit'].sort_values(ascending=False).plot(kind='bar')
#把x轴月份数字正过来
plt.xticks(rotation=360)
#客单价,就是每个客户的消费金额
#客单价 = 总消费金额 / 订单总量
#总消费金额
sum_price = df1[df1['Quantity']>0]['Price'].sum()
#计算客户ID数量
count_ID = df1[df1['Quantity']>0]['Customer ID'].count()
#客单价
avgprice = sum_price/count_ID
print(avgprice)
#客户ID去重计数
count_ID1=df1[df1['Quantity']>0]['Customer ID'].drop_duplicates().count()
print(count_ID1)
#按照 Customer ID聚合时,对Row ID去重计算下单次数,对Quantity和Price求和
customer=df1[df1['Quantity']>0].groupby('Customer ID').agg({'Row ID':'nunique','Quantity':np.sum,'Price':np.sum})
print(customer)
customer.describe()
#df2是取出df1中既满足['Quantity']>0又满足['Sales']>0的数据
df2 = df1[(df1['Quantity']>0) & (df1['Sales']>0)]
#RFM
# R_value是用户最近一次交易距今的时间
#按照Customer ID分类选出Order Date的最大值
R_value = df2.groupby('Customer ID')['Order Date'].max()
# Order Date中的最近时间-每位用户最近一次交易时间
R_value = (df2['Order Date'].max() - R_value).dt.days
# F_value是用户在限定的时间内所购买的次数
#按照Customer ID分类对Order ID去重计数
F_value = df2.groupby('Customer ID')['Order ID'].nunique()
# M_value是用户的交易金额
#按照Customer ID分类对Price求和
M_value = df2.groupby('Customer ID')['Price'].sum()
#描述分析R_value
R_value.describe()
#画出F_value满足F_value<200的分布柱状图
plt.hist(F_value[F_value<200],bins=30)
plt.show()
#设置分段标准
R_bins = [0,30,60,90,180,720]
F_bins = [1,2,5,10,20,500]
M_bins = [0,500,2000,5000,10000,200000]
#对用户最近一次交易距今的时间分段
R_score = pd.cut(R_value,R_bins,labels = [5,4,3,2,1],right=False)
R_score
#对用户在限定的时间内所购买的次数分段
F_score = pd.cut(F_value,F_bins,labels = [1,2,3,4,5],right=False)
#对用户的交易金额分段
M_score = pd.cut(M_value,M_bins,labels = [1,2,3,4,5],right=False)
#将R、F、M组合起来
RFM = pd.concat([R_score,F_score,M_score],axis=1)
#重命名各个变量
RFM.rename(columns={'Order Date':'R_score','Order ID':'F_score','Price':'M_score'},inplace=True)
#将RFM中的数据转换为float
for i in ['R_score','F_score','M_score']:
RFM[i] = RFM[i].astype(float)
#看平均值
RFM.describe()
#进行用户价值评测:大于平均值为高价值用户,否则为低价值用户
RFM['R'] = np.where(RFM['R_score'] > 3.594560,'高','低')
RFM['F'] = np.where(RFM['F_score'] > 3.857862,'高','低')
RFM['M'] = np.where(RFM['M_score'] > 4.243703,'高','低')
#将R、F、M三个评测等级以字符串形式连接保存为value一列
RFM['value'] = RFM['R'].str[:] + RFM['F'].str[:] + RFM['M'].str[:]
#去除value一列字符串头尾的空格
RFM['value'] = RFM['value'].str.strip()
#定义用户等级分类函数
def trans_value(x):
if x == '高高高':
return '重要价值客户'
elif x == '低高高':
return '重要保持客户'
elif x == '低低高':
return '重要挽留客户'
elif x == '高高低':
return '一般价值客户'
elif x == '高低低':
return '一般发展客户'
elif x == '低高低':
return '一般保持客户'
elif x == '高低高':
return '重要发展客户'
else:
return '一般挽留客户'
#对value一列使用用户等级分类函数
RFM['用户等级'] = RFM['value'].apply(trans_value)
#分类计数
RFM['用户等级'].value_counts()
#画条形图
trace_basic=[go.Bar(x=RFM['用户等级'].value_counts().index,y=RFM['用户等级'].value_counts().values,marker=dict(color='orange'),opacity=0.50)]
layout=go.Layout(title='用户等级情况',xaxis=dict(title='用户重要度'))
figure_basic=go.Figure(data=trace_basic,layout=layout,)
pyplot(figure_basic)
#画饼图
trace_basic1 = [go.Pie(labels = RFM['用户等级'].value_counts().index,values = RFM['用户等级'].value_counts().values,hole=0.2,textfont = dict(size=12,color='white'))]
layout1 = go.Layout(title = '用户等级比例')
figure_basic1 = go.Figure(data = trace_basic1,layout = layout1,)
pyplot(figure_basic1)
附图(大家可以自己敲一遍进行对照)





Python小白,数据分析与机器学习方向,每周六更


浙公网安备 33010602011771号