redis学习计划(八)redis常用数据类型 HyperLoglog

redis学习计划(八)redis常用数据类型 HyperLoglog

1.HyperLoglog简介

HyperLoglog是redis新支持的两种类型中的另外一种(上一种是位图类型Bitmaps)。主要适用场景是海量数据的计算。特点是速度快。占用空间小。

同样是用于计算,HyperLoglog在适用场景方面与Bitmaps方面有什么不同呢。我个人的理解是,Bitmaps更适合用于验证的大数据,比如签到,

记录某用户是不是当天进行了签到,签到了多少天的时候。也就是说,你不光需要记录数据,还需要对数据进行验证的时候使用Bitmaps。

HyperLoglog则用于只记录的时候,比如访问的uv统计。

 

Redis HyperLogLog 是用来做基数统计的算法,HyperLogLog 的优点是,在输入元素的数量或者体积非常非常大时,计算基数所需的空间总是固定 的、并且是很小的。

在 Redis 里面,每个 HyperLogLog 键只需要花费 12 KB 内存,就可以计算接近 2^64 个不同元素的基 数。这和计算基数时,元素越多耗费内存就越多的集合形成鲜明对比。

但是,因为 HyperLogLog 只会根据输入元素来计算基数,而不会储存输入元素本身,所以 HyperLogLog 不能像集合那样,返回输入的各个元素。

什么是基数?

比如数据集 {1, 3, 5, 7, 5, 7, 8}, 那么这个数据集的基数集为 {1, 3, 5 ,7, 8}, 基数(不重复元素的个数)为5。 基数估计就是在误差可接受的范围内,快速计算基数。

 

2.HyperLoglog相关命令

1)

命令:PFADD key element [element ...]

时间复杂度:O(1)

命令描述:将除了第一个参数以外的参数存储到以第一个参数为变量名的HyperLogLog结构中。这个命令的一个副作用是它可能会更改这个HyperLogLog的内部来反映在每添加一个唯一的对象时估计的基数(集合的基数)。如果一个HyperLogLog的估计的近似基数在执行命令过程中发了变化, PFADD返回1,否则返回0,如果指定的key不存在,这个命令会自动创建一个空的HyperLogLog结构(指定长度和编码的字符串)。如果在调用该命令时仅提供变量名而不指定元素也是可以的,如果这个变量名存在,则不会有任何操作,如果不存在,则会创建一个数据结构。

返回值:如果 HyperLogLog 的内部被修改了,那么返回 1,否则返回 0 。

 

(2

命令:PFCOUNT key [key ...]

命令描述:当参数为一个key时,返回存储在HyperLogLog结构体的该变量的近似基数,如果该变量不存在,则返回0。当参数为

多个key时,返回这些HyperLogLog并集的近似基数,这个值是将所给定的所有key的HyperLoglog结构合并到一个临时的HyperLogLog结构中计算而得到的。HyperLogLog可以使用固定且很少的内存(每个HyperLogLog结构需要12K字节再加上key本身的几个字节)来存储集合的唯一元素。返回的可见集合基数并不是精确值, 而是一个带有 0.81% 标准错误(standard error)的近似值。

返回值:PFADD添加的唯一元素的近似数量。

1.Pfadd 命令将所有元素参数添加到 HyperLogLog 数据结构中
rs.pfadd('pf1', 1, 2)  # 成功,返回1
rs.pfadd('pf1', 1, 3)

2. Pfcount 命令返回给定 HyperLogLog 的基数估算值。
rs.pfcount('pf1')  #输出结果是3, 因为 1 重复了两次
rs.pfcount('pf2')  # 返回0

 

 

(3

命令:PFMERGE destkey sourcekey [sourcekey ...]

命令描述:将多个 HyperLogLog 合并(merge)为一个 HyperLogLog , 合并后的 HyperLogLog 的基数接近于所有输入 HyperLogLog 的可见集合(observed set)的并集。合并得出的 HyperLogLog 会被储存在目标变量(第一个参数)里面, 如果该键并不存在, 那么命令在执行之前, 会先为该键创建一个空的。

返回值:这个命令只会返回 OK。

 

 

https://www.cnblogs.com/simibaba/p/7090350.html

posted on 2018-09-06 09:54  myworldworld  阅读(92)  评论(0)    收藏  举报

导航