夜的独白

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

背景

科赛网“Pandas做数据分析”数据集,进行探索分析

代码

首先,导入数据集,查看数据

背景

科赛网“Pandas做数据分析”数据集,进行探索分析

代码

首先,导入数据集,查看数据

![数据集](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LTg4MTg0MTQ4OWExMGQ3M2EucG5n?x-oss-
process=image/format,png)

查看不同item的购买数量

![item
购买量](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LTdmNGM4ZTM1NWM2MjdiZjYucG5n?x-oss-
process=image/format,png)

不同item出现的次数统计

![item
次数统计](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LTE2YWFiZmU5OTE1N2FkM2IucG5n?x-oss-
process=image/format,png)

对price进行处理

![price
处理](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LThmM2Q5OWMxNGZhZGRmNWMucG5n?x-oss-
process=image/format,png)

增加“sub_total”列,查看每笔订单的总金额

![sub_total](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LWI1OWI5ZDY4ZmE0ZDFmZmIucG5n?x-oss-
process=image/format,png)

查看总收入是多少

![总收入](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LTUzMzZkOWY2NGZhY2U2MDIucG5n?x-oss-
process=image/format,png)

数据集中“choice_description”,
猜想订单备注信息或许与收入有关系,并可以通过订单id链接到用户id,对用户进行分组,通过人群分类用户画像最大化销量与收益。

新增衡量description的列“description_len”

![description](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LWY0YmI0M2U2OWNkYjY5NWEucG5n?x-oss-
process=image/format,png)

绘制整体“description_len”与"sub_total"的关系

![“description_len”与"sub_total"的散点图](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LWFkMmNmNzUyNjljYjlhMTEucG5n?x-oss-
process=image/format,png)

发现有异常值,进行删除处理

![异常值处理](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LTBhMjYzZmJkOWQ5MGRjZGUucG5n?x-oss-
process=image/format,png)

尝试通过聚类方法进行分组,选取方法:KMeans, DBSCAN, MeanShift, AgglomerativeClustering, OPTICS

![聚类处理](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LTZkYjBjZjRlMWY1ZWVjNjIucG5n?x-oss-
process=image/format,png)

进行数据可视化

![数据可视化](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LTJhNmQ2YzliYmRmY2U4NjIucG5n?x-oss-
process=image/format,png)

得到以下结果

![结果图](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LTY0NmNlMWM2MGE4NGI3NGEucG5n?x-oss-
process=image/format,png)

如果从用户消费习惯分类,可以将理想分类模型先用tableau进行模拟,分类规则制定的思想:

**A:description 较长,但订单总价不高,大体处于订单总价中最低档,用户价值较低,但用户参与度较高,可以推送促销、打折商品,对价格敏感度高
B:description 较短,并且订单总价较为集中,大体仍处于订单总价中最低档。用户价值较低,且用户参与度不高,可以推送促销、打折商品,对价格敏感度高
C:description 较长,订单总价大体处于订单总价中中等档。用户价值较高,且参与度较高。可以推送价格适中的商品,或促销打折的大牌商品
D:description 较长,订单总价大体处于订单总价中最高档,较为分散。用户价值很高,参与度较为分散,可以推送大牌潮牌等商品 **

分类规则如下:

![分类规则](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LWVhNzdkMmEwYzFlMDc2YWEucG5n?x-oss-
process=image/format,png)

![tableau绘图结果](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8zNzA4NjE5LTM4NmVmMDgyZTA5ZDg1MDgucG5n?x-oss-
process=image/format,png)

较为理想的分类结果为GMM算法所得结果

下一步工作即可根据分类结果对特定用户人群/商品进行针对性的运营战略,提高整体营收

END

在这里插入图片描述

posted on 2021-07-02 14:48  夜的独白  阅读(338)  评论(0)    收藏  举报