数据分析——狐逻&泰罗学院学员画像

数据分析——狐逻&泰罗学院学员画

一、数据源

数据来源于集团数据库,学员大表

该数据集中共有26w+学员报名的数据,字段信息29个,可大致分为

1.订单相关字段

子订单id

子订单编号

学员id

姓名

报名时间

服务期截止时间

支付金额

支付方式

订单状态

2.课程相关字段:

一级项目

二级项目

班型

3.班主任相关字段:

学院

家族

花名

班级名称

4.出勤信息相关字段:

连续缺勤直播次数

应出勤课程数

出勤率

累计学习时长

持续休眠天数

5.学员信息相关字段:

是否有考试计划

准考证填写情况

报考省份

报考城市

是否绑定官微

标签

加微信状态

 

 

 

二、提出需求

对这些数据做描述性统计分析也可以获取一些有价值的信息,首先提出问题:

1. 学员地理位置分布如何?

2. 学生班主任分布如何?

3.课程分布情况如何?

三、数据清洗

1. 选择子集

由于数据所含字段较多,根据分析所需对其他无关数据进行隐藏,选择相关数据另存到新的工作表中,方便进行下一步操作。

2. 列名重命名

此数据中列名为英文,将其改为中文。

3. 删除重复值

对学员名称进行操作删除重复值,发现同一学员id但上线日期不同,应为有效数据,予以保留。

4. 处理缺失值

对数据区域进行空值的定位查找,发现无缺失值,每一列计数项均一致。

5. 一致性处理、排序、处理异常值

本数据较为规范,无需进行额外操作,可直接进行下一步分析。

 

四、构建模型

1. 学员分布城市主要包括为那些地区,各比例如何?

2. 哪些课程较受欢迎,学生数较多?

3. 哪些班主任较受欢迎,学生数较多?

4. 课程持续时长不同是否会影响学生完成情况?

五、数据分析可视化

1.利用数据透视表,对地理位置进行分析,如图1所示,地理位置分布情况如下:

 

 

图1 各地理位置分布条形图

进一步对省份进行分析,结果如图1所示,广东地区学员人数最多。

2. 以课程分布为依据,选择自考的学生数较多,其次教师资格证的学生较多。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. 以班主任分布为依据,选择教师资格证的张涛老师的学生数较多,但是自考穆登容老师在运营中获得的流水数量最多。

 

 六、结论

通过以上分析,可以得出一些比较有意思的结论:

1.自考学生带来了大量的流水,教师资格证带来了大量的学员人数。

2.广东地区学员接收线上成人教育的接收程度较其他地区较显著。

 

posted @ 2020-12-05 00:10  小菜菜爱大饼饼  阅读(384)  评论(0编辑  收藏  举报