随笔分类 - 数据结构&算法
摘要:为此我们需要一种应对于海量数据场景的去重方案,经过研究发现有种叫 local sensitive hash 局部敏感哈希 的东西,据说这玩意可以把文档降维到hash数字,数字两两计算运算量要小很多。查找很多文档后看到google对于网页去重使用的是simhash,他们每天需要处理的文档在亿级别,大大
阅读全文
posted @ 2018-09-05 15:21
山峰旺旺

浙公网安备 33010602011771号