20年暑假第三周周总结

这一周自己大约一共发了10篇博客:

有一个是爬虫项目的实战,爬取的是豆瓣影院的相关电影信息。

然后其余的博客就是和大数据相关的的了。主要会HDFS和MapReduce。简单的了解了api的操作hdsf的基本流程。配置了虚拟机的hadoop环境。

成功运行了maven项目,实现了项目文件上传,以及通过idea运行MapReduce。并分析最后的的运行结果。HDFS数据流进行的了解,好友yarn的伪分布式,wordcount在集群上运行等等知识点

总的代码量大约在500行左右。

在下一周自己的主要的任务是将MapReduce学习完成。

posted @ 2020-08-18 09:15  喜欢爬的孩子  阅读(81)  评论(0编辑  收藏  举报