BloomFilter简介

前言

在之前的Redis使用中缓存穿透、缓存雪崩等问题总结中提到过，缓存穿透的解决办法之一就是使用布隆过滤器，BloomFilter来过滤掉无效请求。今天我们来了解一下布隆过滤器。

BloomFilter原理

BloomFilter是一种概率型数据结构，它由一个长度为m的二进制向量（位数组）和k个哈希函数组成，其特点是插入和查询的效率非常高，但缺点是存在一定的误判率。

位数组初始化时各位上都是0，如下所示：

当向BloomFilter中存入一个key时，经过k个哈希函数的计算之后得到k个不同的哈希值，这些哈希值再模以位数组的长度m，得到k个数组中的位置，再将这些位置上的0修改为1，如下所示：

当想要查询这个key是否存在时，也很简单，通过哈希函数和位数组的长度获得key映射在位数组上的不同位置，若是有一个位置上仍是0，那么这个key就一定不存在于这个bloomFilter上。若是不同位置上都是1，则这个key可能存在于这个BloomFilter中。为什么说是有可能呢？考虑一下下图这个场景。

此时有key1、key2两个key在BloomFilter上，导致位数组的2、4、6、10、12和15位置上都为1。假设现在有一个key3，经过计算之后，其在位数组上的位置分别是2、6和12，这三个位置上都是1，那么这个key3到底在不在BloomFilter里面呢？这个就不得而知了。这也是为什么BoolFilter存在误判的原因。

因此，当我们使用BloomFilter检查一个元素是否存在时，若该元素经过 k 个哈希函数运算后，位数组上任意一个索引位置上都是0，那么该值肯定不在BloomFilter中。但如果所有索引位置处均为 1，则只能说该元素可能存在于BloomFilter中。简而言之，不存在就一定不存在，存在也可能是不存在的。

误判率

既然存在误判率，那么我们怎么控制呢？还是要从BloomFilter的结构上分析。当位数组长度比较小，且哈希函数比较少时，经过n个key之后，可以预见位数组上大部分都已经是1，这个时候误判率将会非常高，因为你没办法区分位置上的1是由当前key自身生成的，还是其他key导致的。所以，误判率是由哈希函数的个数k、位数组长度m以及key个数n共同决定的，公式如下所示：