摘要: 数据去重(data deduplication)是大数据领域司空见惯的问题了。除了统计UV等传统用法之外,去重的意义更在于消除不可靠数据源产生的脏数据——即重复上报数据或重复投递数据的影响,使计算产生的结果更加准确。 介绍下经常使用的去重方案: 一、布隆过滤器(BloomFilter) 基本原理: 阅读全文
posted @ 2021-02-09 11:36 阿凡卢 阅读(5885) 评论(0) 推荐(1) 编辑