布谷鸟过滤器

布谷鸟过滤器
一、布隆过滤器
二、布谷鸟过滤器
三、优缺点
四、参考资料
一、布隆过滤器
布隆过滤器有exists方法通过对位数组的hash计算判断某元素是否在集合中,实现去重功能。但布隆过滤器有一下缺点:

不支持反向删除元素:一旦对位数组进行了赋值,无法将其删除。
查询性能弱:布隆过滤器使用多个hash函数计算位图多个不同位点,由于多个位点在内存中不连续,CPU寻址花销较大。
空间利用率低。
二、布谷鸟过滤器
布谷鸟过滤器源于布谷鸟Hash算法,布谷鸟Hash表有两张,分别两个Hash函数,当有新的数据插入的时候,它会计算出这个数据在两张表中对应的两个位置,这个数据一定会被存在这两个位置之一(表1或表2)。一旦发现其中一张表的位置被占,就将改位置原来的数据踢出,被踢出的数据就去另一张表找对应的位置。通过不断的踢出数据,最终所有数据都找到了自己的归宿。
但仍会有数据不断的踢出,最终形成循环,总有一个数据一直没办法找到落脚的位置,这代表布谷Hash表走到了极限,需要将Hash算法优化或Hash表扩容。

布谷鸟过滤器只会存储元素的指纹信息(几个bit,类似于布隆过滤器),由于不是存储了数据的全部信息,会有误判的可能。

由于布谷鸟过滤器在踢出数据时,需要再次计算原数据在另一种表的Hash值,因此作者设计Hash算法时将两个Hash函数变成了一个Hash函数,第一张表的备选位置是Hash(x),第二张表的备选位置是Hash(x)⊕hash(fingerprint(x)),即第一张表的位置与存储的指纹的Hash值做异或运算。这样可以直接用指纹的值 异或 原来位置的Hash值来计算出其另一张表的位置。

三、优缺点
布谷鸟过滤器在错误率小于3%的时候空间性能是优于布隆过滤器的,而这个条件在实际应用中常常满足,所以一般来说它的空间性能是要优于布隆过滤器的。布谷鸟过滤器按照普通设计,只有两个Hash表,在查找的时候可以确保两次访存就可以做完,相比于布隆过滤器的K个Hash函数K次访存,在数据量很大不能全部装载在内存中的情况下,多次访问内存性能较差。当然,布谷过滤器也有其相应的缺点,当装填数据过多的时候,容易出现循环的问题,即插入失败的情况。另外,它还跟布隆过滤器共有的一个缺点,就是访问空间地址不连续,内存寻址消耗大。
综上,布谷鸟过滤器优点:

访问内存次数低
Hash函数计算简单
缺点:
内存空间不联系,CPU消耗大
容易出现装填循环问题
删除数据时,Hash冲突会引起误删
四、参考资料
布谷鸟过滤器论文:https://www.cs.cmu.edu/~dga/papers/cuckoo-conext2014.pdf

Redis 布谷鸟过滤器模块: https://github.com/kristoff-it/redis-cuckoofilter

posted @ 2021-11-01 10:23  扯不断得红尘  阅读(537)  评论(0)    收藏  举报