大数据应用期末总评

豆瓣电影网-《复仇者联盟4》影评

   一:将爬虫大作业产生的csv文件上传到HDFS

          首先我把爬到的评论先进行预处理

     然后上传到HDFS里面

   查看前5条评论,看看是否上传成功

  二:对数据进行分割处理

      执行deal.sh 对数据进行分割预处理并输出形成lht.txt

 

 

  三.把hdfs中的文本文件最终导入到数据仓库Hive中

     查看数据前5显示出来,处理数据之后,相比起之前看起来整齐很多

 

 

  四.在Hive中查看并分析数据

     启动hive之后进行创建数据库再创表,表的名字为“bbb”,并且定义表的属性

 

 

五.用Hive对爬虫大作业产生的进行数据分析

    爬虫大作业生成的csv进行筛选:分别对不同的评分进行统计。

     5分

     4分 

     3分

     2分

     1分

 

    从上面的统计结果可以看出,这部电影的评分是相当的高的,5分和4分的人数占了98%,而低于或等于3分的只占了2%。

    统计了一下平均的评分,达到了4.56的高分,证明这电影是票房冠军的有力竞争者

 

     统计出评分5分的忠实粉丝最多的15个城市,从高到低的顺序排列

  可以看出很多的忠实粉丝都在一线城市。

 

 

评分星级大于4的粉丝集中所在的排名前20的城市。

综上可以看出,一线城市观看的人数是比较多的,这可以侧面反应出一线城市的电影院数量和场次都是很多的,也可以反映出商家的电影宣传是做的很好的。

 

观众观看时间分析:

 

电影的上映时间是4月26日,但是评论时间最多的却是6月1日附近,说明大多是观看的人都没有时间第一时间观看电影,而且选择在节假日去观看电影。

 

   生成词云

posted @ 2019-06-17 15:30  Bigdickdick  阅读(271)  评论(0编辑  收藏  举报