摘要:
引入 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。 例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费; 同时,展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可能原因主要包括: 镜像网站 内容复 阅读全文
posted @ 2019-05-27 16:04
亦海
阅读(550)
评论(0)
推荐(0)
摘要:
引入 什么情况下需要布隆过滤器?我们先来看几个比较常见的例子: 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能 这几个例子有一个共同的特点: 如何判断一个元素是否存在 阅读全文
posted @ 2019-05-27 15:34
亦海
阅读(428)
评论(0)
推荐(0)
摘要:
Trie,又经常叫前缀树,字典树等等。它有很多变种,如后缀树,Radix Tree/Trie,PATRICIA tree,以及bitwise版本的crit-bit tree。当然很多名字的意义其实有交叉。 Trie树是一种非常重要的数据结构,它在信息检索,字符串匹配等领域有广泛的应用,同时,它也是很 阅读全文
posted @ 2019-05-27 09:22
亦海
阅读(1480)
评论(0)
推荐(1)

浙公网安备 33010602011771号