wukong大数据
测试要求:
1、 数据采集:
要求使用Python编写程序读取黑神话悟空评论数据,地址如下,请用csv完整版数据,数据样例格式课参考xlsx示例:
https://tianchi.aliyun.com/dataset/184965。
2、开发MR程序清洗电商评论数据数据清洗:
数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
要求使用MapReduce,对整个评论文件,进行清洗,以得到清洗后的规范文本文件。
3、 数据加载:生成Hive用户评论数据:
(1)在HIVE中创建自己的数据库;
(2)并将手机评论数据导入用户评价表中。
4、 数据统计:生成Hive用户评论数据:
使用Hive对以下指标进行统计并可视化演示:
(1)用户每日评价人数曲线(每日评价用户人数折线图)
(2)用户每日评级推荐/不推荐饼图(可按照日期筛选,饼图自动更新)
(3)游戏时长与与是否推荐的关系分析(大体能反映游戏时长与是否推荐的关系)
(4)通过用户链接提取用户id
5、 利用Sqoop进行数据迁移至Mysql数据库:
要求生成mysql用户评论表。
6、 中文分词实现用户评价分析。
(1)利用 python 结巴分词实现用户评价信息中的中文分词及词频统计;
(2)在 hive 中新建词频统计表并加载分词数据;
要求实现:
l (1)实现用户评价信息中的中文分词;
l (2)实现中文分词后的词频统计;
l (3)在 hive 中新建词频统计表加载分词数据;
(4)构建用户推荐/不推荐用户的评论词云图;
实现:





浙公网安备 33010602011771号