redis数据类型HyperLogLog的使用

最近遇到一个业务需求，要统计一张mysql大表每天/每周/每月的记录量（该表每天产生的记录量在好几百万）。当然有朋友会说，select count(1) from xxx 不就完事了吗？

确实，但是大表做count非常耗时，如果db服务器配置也不咋地，直接就跑跪了。

于是想到了redis里的HyperLogLog，这种数据类型一般很少用，但是计算count是它的强项，性能极快（具体原理可参考文末文章）

一、基本用法
1.1 向HyperLogLog中添加元数
pfadd key名数据1 数据2 ...

如上图，可以用 "表名_天"做为key，然后把每行记录的主键Id扔进去，如果操作执行成功，会返回1

1.2 统计HyperLogLog中的基数(即：去除重复后的元素个数)
pfcount key名

可以看到，返回了数字6，自动将重复元素3 4 做了合并去重。

1.3 合并多个HyperLogLog

pfmerge 新key名 key1 key2 ...

假如我们已经有了 table_20200825 , table_20200826 这2个key，想统计它们的元素之和，就可以用pfmerge合并这2个HyperLogLog

注意：合并时，如果2个HyperLogLog中有重复元素，新Key会自动合并去重。

二、大表count思路

学习了HyperLogLog的用法，回到最开始的场景，怎么实时把大表的ID都扔到HyperLogLog里呢？

可以借助canal工具，订阅mysql的binlog，实时消费mq，扔到redis里。

链路：
mysql -> canal -> mq -> redis
优点：对业务系统0侵入性，也没有额外的性能开销。

不过，世界上并没有银弹，HyperLogLog也并非完美无缺，它的统计值是有一定误差的，并非1个不漏，对于计算日活/海量数据定性分析，这些是没问题的，但是如果用于统计具体金额之类的，就不建议使用了。

另外，对于已经添加进去的元素，没办法删除，没有类似pfdelete的命令。

参考文章：

https://www.jianshu.com/p/55defda6dcd2

https://mp.weixin.qq.com/s/AvPoG8ZZM8v9lKLyuSYnHQ

https://zhuanlan.zhihu.com/p/77289303

posted @ 2020-08-25 22:21 菩提树下的杨过阅读(555) 评论(0) 收藏举报

刷新页面返回顶部