摘要:
适用于场景连接的列数据量很大,在分布式缓存中无法存储时,Bloom Filter 可解决这个问题,用很小的内存可有MAP端过滤掉不需要JOIN的数据,这样传到REDUCE的数据量减少,减少了网络传及磁盘IO。缺点Bloom Filter 会有一定的错误率,但是错误率很低,用空间换取了时间。并且,最终... 阅读全文
posted @ 2014-08-14 14:49
netskill
阅读(549)
评论(0)
推荐(0)
浙公网安备 33010602011771号