摘要:
介绍 接上篇,【搜索引擎(五)】局部敏感哈希,本篇介绍的也是一个不精确的算法,用来不精确地排除重复元素。 利用布隆过滤器,可以大大降低排重的时间。但是在实际中它的作用有限,还要结合其他的技巧才能达到较好的效果。另外,它本身不作为索引,如果不加处理地加以使用,在搜索引擎的快响应(小于1s)的目标中就不 阅读全文
posted @ 2017-11-13 17:54
stackupdown
阅读(721)
评论(0)
推荐(0)
摘要:
1.介绍 哈希是一种常用的数据摘要方法,可以把大段的数据映射成固定长度的字符串。在查找某个文档的时候,我们不希望每一次都比较大段的数据,以此来确定文档的位置,这样太过浪费生命了。只要实现计算好文档的哈希值,就可以只通过比较两个文档的哈希,查出匹配的文档,从而大大减少检索的时间。 传统的hash方法, 阅读全文
posted @ 2017-11-13 12:10
stackupdown
阅读(688)
评论(0)
推荐(1)

浙公网安备 33010602011771号