石家庄铁道大学2025年春季
2022级大数据与体系结构测试试卷-评论大数据分析
课程名称: 大数据与体系结构 任课教师: 王建民、武永亮 测试时间:实现为止
测试要求:
- 数据采集:
要求使用Python编写程序读取黑神话悟空评论数据,地址如下,请用csv完整版数据,数据样例格式课参考xlsx示例:
https://tianchi.aliyun.com/dataset/184965。
2、开发MR程序清洗电商评论数据数据清洗:
数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
要求使用MapReduce,对整个评论文件,进行清洗,以得到清洗后的规范文本文件。
- 数据加载:生成Hive用户评论数据:
(1)在HIVE中创建自己的数据库;
(2)并将手机评论数据导入用户评价表中。
- 数据统计:生成Hive用户评论数据:
使用Hive对以下指标进行统计并可视化演示:
(1)用户每日评价人数曲线(每日评价用户人数折线图)
(2)用户每日评级推荐/不推荐饼图(可按照日期筛选,饼图自动更新)
(3)游戏时长与与是否推荐的关系分析(大体能反映游戏时长与是否推荐的关系)
(4)通过用户链接提取用户id
- 利用Sqoop进行数据迁移至Mysql数据库:
要求生成mysql用户评论表。
- 中文分词实现用户评价分析。
(1)利用 python 结巴分词实现用户评价信息中的中文分词及词频统计;
(2)在 hive 中新建词频统计表并加载分词数据;
要求实现:
(1)实现用户评价信息中的中文分词;
(2)实现中文分词后的词频统计;
(3)在 hive 中新建词频统计表加载分词数据;
(4)构建用户推荐/不推荐用户的评论词云图;
浙公网安备 33010602011771号