Hadoop综合大作业
2018-05-23 20:04 linxj97 阅读(222) 评论(0) 收藏 举报1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。
2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。
因为python生成的结果为中文,所以首先去网上下载一篇英文文章“Please Dress Me in Red".
首先启动hadoop

将文件上传到hdfs

启动hive

创建表novel(存放文本)

将文本导入到novel表

进行HQL词频统计,将结果放入novel_count表中

显示词频统计结果(前10的数据)

2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。
统计17173网游排行榜以及各网游下载次数:

将文件转为csv,txt格式并放入虚拟机中

将文件上传至hdfs并显示前十条

启动hive

创建数据库

创建表

将文件导入表中

查看前十条

浙公网安备 33010602011771号