Hadoop综合大作业

Hadoop综合大作业 要求:

1.将爬虫大作业产生的csv文件上传到HDFS

 

2.对CSV文件进行预处理生成无标题文本文件

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中

创建数据库

创建表

 

 

4.在Hive中查看并分析数据

查看图书评分大于9.0前20本书的详情,可以看出这些都是大家很熟悉的书

 

 查看图书评分大于9.0和评论数大于10万的图书,显示才有9本,这些书都比较值得一看

 查看评论数最多,和对应的作者,前20项,大家可以看看这些作者写的其他书籍

 

 查看作者是鲁迅的书,可以看到鲁迅写的书评分都比较高分,基本都是8.0以上,值得推荐

 

 查看评分大于9.0的前20项的书本价格,这样一看不会特别贵,价格比较容易接受

 

 查看图书各个评分阶段都有多少个,8.0分到9.0分的图书还是比较多的

 查看作者的书的平均评论数,和平均评分,供给大家参考

 查看高分的书的描述,大家可以看完这些描述,要是感兴趣可以考虑买这本书

 

 查看评论数少于5000的,这些书评论虽少,但是综合评分都比较高,也可以考虑看

 查看评论数多的,而评分缺比较低,只显示了一本,证明这本书还是比较多人看的,但是评分不是很高

 

 

posted on 2019-06-19 15:34  kenda_yellow  阅读(426)  评论(0编辑  收藏  举报