石家庄铁道大学2025年春季

  2022级大数据与体系结构测试试卷-评论大数据分析

课程名称: 大数据与体系结构  任课教师 王建民、武永亮      测试时间:实现为止

 

测试要求:

  • 数据采集:

要求使用Python编写程序读取黑神话悟空评论数据,地址如下,请用csv完整版数据,数据样例格式课参考xlsx示例:

https://tianchi.aliyun.com/dataset/184965。

2、开发MR程序清洗电商评论数据数据清洗:

数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

要求使用MapReduce,对整个评论文件,进行清洗,以得到清洗后的规范文本文件。

 

  • 数据加载:生成Hive用户评论数据:

(1)在HIVE中创建自己的数据库;

(2)并将手机评论数据导入用户评价表中。

 

  • 数据统计:生成Hive用户评论数据:

使用Hive对以下指标进行统计并可视化演示:

(1)用户每日评价人数曲线(每日评价用户人数折线图)

(2)用户每日评级推荐/不推荐饼图(可按照日期筛选,饼图自动更新)

(3)游戏时长与与是否推荐的关系分析(大体能反映游戏时长与是否推荐的关系)

(4)通过用户链接提取用户id

  • 利用Sqoop进行数据迁移至Mysql数据库:

要求生成mysql用户评论表。

 

  • 中文分词实现用户评价分析。

(1)利用 python 结巴分词实现用户评价信息中的中文分词及词频统计;

(2)在 hive 中新建词频统计表并加载分词数据;

要求实现:

 (1)实现用户评价信息中的中文分词;

 (2)实现中文分词后的词频统计;

     (3)在 hive 中新建词频统计表加载分词数据;

       (4)构建用户推荐/不推荐用户的评论词云图;

 

posted on 2025-06-04 13:04  leapss  阅读(14)  评论(0)    收藏  举报