代码改变世界

Hadoop综合大作业

2018-05-23 20:04  linxj97  阅读(222)  评论(0)    收藏  举报

1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。

2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

 

1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。

因为python生成的结果为中文,所以首先去网上下载一篇英文文章“Please Dress Me in Red".

 

首先启动hadoop

将文件上传到hdfs

启动hive

 

 创建表novel(存放文本)

 

 

将文本导入到novel表

 

 

进行HQL词频统计,将结果放入novel_count表中

 

 

显示词频统计结果(前10的数据)

 

2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

统计17173网游排行榜以及各网游下载次数:

 

将文件转为csv,txt格式并放入虚拟机中

将文件上传至hdfs并显示前十条

 

 启动hive

创建数据库

 

创建表

 

 

将文件导入表中

 

 

查看前十条