Hadoop综合大作业
Hadoop综合大作业 要求:
1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件
喜剧电影:

剧情电影

3.把hdfs中的文本文件最终导入到数据仓库Hive中
创建数据库:

创建comedy表:

创建plot表:

4.在Hive中查看并分析数据
查看喜剧电影高分的电影名和年份,可以根据最近的年份选择自己喜欢的喜剧电影

查看喜剧电影评论数最多的前10项

查看评分最高的前10项喜剧电影信息

查看年份为2018,评分大于8.0分的剧情电影

查看喜剧电影前20项信息

查看剧情电影的前15项

剧情电影评分大于9.0以上的

浙公网安备 33010602011771号