摘要: 问题的提出:假设有A,B两个文件,文件里面都是url地址,各有10亿条,如何找出AB两个文件里面都存在的Url。(内存装不下任何一个文件的十分之一) 解决方法:首先在不考虑内存的情况下,我们最传统的方法就是是遍历AB两个文件一个一个的比较,这个方法是能找出结果,但是时间复杂度是o(n2),对于没一个url都要去遍历一遍另外的一个文件。 而Bloom Filter可以解决该问题,同时在时间和空间的开销上都是很小的。原理如下: 1.建立一个byte数组 ,长度为LEN,数组的长度越长发送错误的概率越低 2.读取A的每一个记录,对每一个记录建立一个hash,假设hash值是D ... 阅读全文
posted @ 2012-06-19 14:07 hadooper 阅读(434) 评论(0) 推荐(0)