2012年4月10日

摘要: 搜索之这个专题不错 阅读全文

posted @ 2012-04-10 19:30 joneykk 阅读(112) 评论(0) 推荐(0)

摘要: 【什么是Bloom Filter】Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,采用Bloom Filter的数据结构,可以通过极少的错误换取了存储空间的极大节省。这里有一篇关于Bloom Filter的详细介绍,不太懂的博友可以看看。【适用范围】可以用来实现 阅读全文

posted @ 2012-04-10 16:02 joneykk 阅读(145) 评论(0) 推荐(0)

摘要: 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这 样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨 论。 本贴从解决这类问题的方法入手,开辟一系列专题来解决海量数据问题。拟包含 以下几个方面。Bloom FilterHashBit-Map堆(Heap)双层桶划分数据库索引倒排索引(Inverted Index)... 阅读全文

posted @ 2012-04-10 15:59 joneykk 阅读(146) 评论(0) 推荐(0)