bloom 过滤器

所需校验的数据经过多个哈希函数散列映射过后在位图上的分布是否全为1,存在0(即不正确的数据,拒绝放行)全为1(即可能为正确的数据,放行)。

一、优点

  1. 支持海量数据场景下高效判断元素是否存在。
  2. 布隆过滤器存储空间小,并且节省空间,不存储数据本身,仅存储hash结果取模运算后的位标记。
  3. 不存储数据本身,比较适合某些保密场景。

二、缺点

  1. 不存储数据本身,所以只能添加但不可删除,因为删掉元素会导致误判率增加。
  2. 由于存在hash碰撞,匹配结果如果是“存在于过滤器中”,实际不一定存在。
  3. 当容量快满时,hash碰撞的概率变大,插入、查询的错误率也就随之增加了。

ps: 1.布隆过滤器中一个元素如果判断结果为存在的时候元素不一定存在,但是判断结果为不存在的时候则一定不存在。因此,布隆过滤器不适合那些对结果必须精准的应用场景。

2.误判率 p≈(1−e^(−kn/m))^k;其中n为已插入元素数,m为位数组长度,k为哈希函数数量。