Hadoop综合大作业

我把爬取的数据从数据库中导出,直接设置导出格式为txt,还有不导出列名,所以第一步是txt文件上传到HDFS

1.将爬虫大作业产生的txt文件上传到HDFS

导入成功,查看数据

2.对CSV文件进行预处理生成无标题文本文件

无需处理第二步。

3.把hdfs中的文本文件最终导入到数据仓库Hive中

创建外部表,把HDFS中的“/bigdatacase/dataset”目录下的数据加载到了数据仓库Hive中

 

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

 https://www.cnblogs.com/-QAQ/p/11056069.html

posted on 2019-06-20 00:28  Lijiajun  阅读(236)  评论(0编辑  收藏  举报

导航