背景
科赛网“Pandas做数据分析”数据集,进行探索分析
代码
首先,导入数据集,查看数据
背景
科赛网“Pandas做数据分析”数据集,进行探索分析
代码
首先,导入数据集,查看数据

查看不同item的购买数量

不同item出现的次数统计

对price进行处理

增加“sub_total”列,查看每笔订单的总金额

查看总收入是多少

数据集中“choice_description”,
猜想订单备注信息或许与收入有关系,并可以通过订单id链接到用户id,对用户进行分组,通过人群分类用户画像最大化销量与收益。
新增衡量description的列“description_len”

绘制整体“description_len”与"sub_total"的关系

发现有异常值,进行删除处理

尝试通过聚类方法进行分组,选取方法:KMeans, DBSCAN, MeanShift, AgglomerativeClustering, OPTICS

进行数据可视化

得到以下结果

如果从用户消费习惯分类,可以将理想分类模型先用tableau进行模拟,分类规则制定的思想:
**A:description 较长,但订单总价不高,大体处于订单总价中最低档,用户价值较低,但用户参与度较高,可以推送促销、打折商品,对价格敏感度高
B:description 较短,并且订单总价较为集中,大体仍处于订单总价中最低档。用户价值较低,且用户参与度不高,可以推送促销、打折商品,对价格敏感度高
C:description 较长,订单总价大体处于订单总价中中等档。用户价值较高,且参与度较高。可以推送价格适中的商品,或促销打折的大牌商品
D:description 较长,订单总价大体处于订单总价中最高档,较为分散。用户价值很高,参与度较为分散,可以推送大牌潮牌等商品 **
分类规则如下:


较为理想的分类结果为GMM算法所得结果
下一步工作即可根据分类结果对特定用户人群/商品进行针对性的运营战略,提高整体营收
END

 
                    
                 
 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号