wukong大数据

测试要求:

1、 数据采集

要求使用Python编写程序读取黑神话悟空评论数据,地址如下,请用csv完整版数据,数据样例格式课参考xlsx示例:

https://tianchi.aliyun.com/dataset/184965

2、开发MR程序清洗电商评论数据数据清洗

数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

 

要求使用MapReduce,对整个评论文件,进行清洗,以得到清洗后的规范文本文件。

 

3、 数据加载生成Hive用户评论数据

1)在HIVE创建自己的数据库;

2)并将手机评论数据导入用户评价表中。

 

4、 数据统计生成Hive用户评论数据

使用Hive对以下指标进行统计并可视化演示:

1)用户每日评价人数曲线(每日评价用户人数折线图)

2)用户每日评级推荐/不推荐饼图(可按照日期筛选,饼图自动更新)

3)游戏时长与与是否推荐的关系分析(大体能反映游戏时长与是否推荐的关系)

4)通过用户链接提取用户id

5、 利用Sqoop进行数据迁移至Mysql数据库:

要求生成mysql用户评论

 

6、 中文分词实现用户评价分析。

1)利用 python 结巴分词实现用户评价信息中的中文分词及词频统计;

2) hive 中新建词频统计表并加载分词数据;

要求实现:

l 1)实现用户评价信息中的中文分词;

l 2)实现中文分词后的词频统计;

l 3)在 hive 中新建词频统计表加载分词数据;

4)构建用户推荐/不推荐用户的评论词云图;

 

 

 

实现:

 

 

 

 

 

posted @ 2025-06-04 23:10  痛苦代码源  阅读(4)  评论(0)    收藏  举报