7.hyperloglog基数统计
A{1,3,5,7,8,7}
B{1,3,5,7,8}
基数(不重复的元素)=5可以接受误差
简介:
hyperloglog是一种数据结构 做基数统计的算法 网页的uv(页面的访问量,一个人访问一个网站多次,还是算作一个人)
传统方式,用set保存用户的id,如果id一样就给覆盖 就可以统计set中的元素数量做为标准进行判断
目的是为了计数 不是为了保存用户id
优点:占用的内存小是固定的 0.81%的错误率 只需要12kb内存
127.0.0.1:6379> pfadd mykey a b c d e f g h i j #创建第一组元素
(integer) 1
127.0.0.1:6379> PFCOUNT mykey #统计mykey 元素基数数量
(integer) 10
127.0.0.1:6379> pfadd mykey2 i j z a x d k d w u l #创建第二组元素
(integer) 1
127.0.0.1:6379> PFCOUNT mykey2
(integer) 10
127.0.0.1:6379> PFMERGE mykey3 mykey mykey2 #合并2组mykey 和mykey2 到mykey3
OK
127.0.0.1:6379> pfcount mykey3 #查看并集的数量
(integer) 16

浙公网安备 33010602011771号