Hadoop综合大作业

Hadoop综合大作业 要求:

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

喜剧电影:

剧情电影

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中

创建数据库:

 

创建comedy表:

 创建plot表:

 

 

4.在Hive中查看并分析数据

查看喜剧电影高分的电影名和年份,可以根据最近的年份选择自己喜欢的喜剧电影

 查看喜剧电影评论数最多的前10项

 

查看评分最高的前10项喜剧电影信息

 查看年份为2018,评分大于8.0分的剧情电影

 查看喜剧电影前20项信息

 查看剧情电影的前15项

 剧情电影评分大于9.0以上的

posted on 2019-06-19 20:02  Chen##  阅读(171)  评论(0)    收藏  举报

导航