7.hyperloglog基数统计

A{1,3,5,7,8,7}

B{1,3,5,7,8}

基数(不重复的元素)=5可以接受误差

简介:

hyperloglog是一种数据结构 做基数统计的算法 网页的uv(页面的访问量,一个人访问一个网站多次,还是算作一个人)

传统方式,用set保存用户的id,如果id一样就给覆盖 就可以统计set中的元素数量做为标准进行判断

目的是为了计数 不是为了保存用户id

优点:占用的内存小是固定的  0.81%的错误率 只需要12kb内存

127.0.0.1:6379> pfadd mykey a b c d e f g h i j #创建第一组元素
(integer) 1
127.0.0.1:6379> PFCOUNT mykey #统计mykey 元素基数数量
(integer) 10
127.0.0.1:6379> pfadd mykey2 i j z a x d k d w u l  #创建第二组元素
(integer) 1
127.0.0.1:6379> PFCOUNT mykey2
(integer) 10
127.0.0.1:6379> PFMERGE mykey3 mykey mykey2 #合并2组mykey 和mykey2 到mykey3
OK
127.0.0.1:6379> pfcount mykey3 #查看并集的数量
(integer) 16

posted @ 2021-04-06 22:41  白语  阅读(54)  评论(0)    收藏  举报