随笔分类 -  Hadoop

摘要:Hadoop产生的背景 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2. 2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的 阅读全文
posted @ 2018-03-21 10:20 扎心了,老铁 阅读(14529) 评论(4) 推荐(7) 编辑
摘要:三个题目 第一题 问题描述 统计出当前这个一行一个IP的文件中,到底哪个IP出现的次数最多 解决思路 问题难点 1、当读取的文件的大小超过内存的大小时,以上的解决方案是不可行的。 2、假如说你的内存足够大,能装下这个文件中的所有ip,整个任务的执行效率会非常低,消耗的时间会非常的长。 1GB -- 阅读全文
posted @ 2018-03-07 18:33 扎心了,老铁 阅读(12827) 评论(4) 推荐(1) 编辑