Hadoop综合大作业

Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。

Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

由于我的爬虫大作业是中文的,所以我下载了一篇英文小说(哈利波特1-7章,共58000行数据)来进行词频统计分析。

首先启动hadoop

文件上传到hdfs

 

启动hive

创建小说表,并导入数据

用HQL进行词频统计,结果放在表word_count里

查看统计结果

 

 

 

 

 

以下是我的爬虫大作业的数据提交到hive

我统计的是博客园2018年到4月底的新闻词频统计,统计的结果大部分为中文,统计的最后几个单词如下图

首先在本地把统计好的词频转化成csv格式和txt格式

通过软件WinSCP把文件上传到虚拟机

 

 

 

 然后要启动hdfs

上传到hdfs并显示前10条

启动mysql

启动hive

创建数据库

 创建表

导入数据

查看数据

 

posted @ 2018-05-21 17:46  风丶轻轻  阅读(222)  评论(0编辑  收藏  举报