摘要: 1、MapReduce任务提交和切片源码 debug能力(怎样使用): 2、各种inputFormat以及自定inputFormat 自定义inputFormat代码实现 之后就是自定义的inputformat 无论HDFS还是MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文 阅读全文
posted @ 2020-08-18 19:39 喜欢爬的孩子 阅读(174) 评论(0) 推荐(0)
摘要: 这一周自己大约一共发了10篇博客: 有一个是爬虫项目的实战,爬取的是豆瓣影院的相关电影信息。 然后其余的博客就是和大数据相关的的了。主要会HDFS和MapReduce。简单的了解了api的操作hdsf的基本流程。配置了虚拟机的hadoop环境。 成功运行了maven项目,实现了项目文件上传,以及通过 阅读全文
posted @ 2020-08-18 09:15 喜欢爬的孩子 阅读(86) 评论(0) 推荐(0)