2019 年 5月 27 日随笔档案 - 亦海

2019年5月27日

摘要：引入随着信息爆炸时代的来临，互联网上充斥着着大量的近重复信息，有效地识别它们是一个很有意义的课题。例如，对于搜索引擎的爬虫系统来说，收录重复的网页是毫无意义的，只会造成存储和计算资源的浪费；同时，展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可能原因主要包括：镜像网站内容复阅读全文

posted @ 2019-05-27 16:04 亦海阅读(555) 评论(0) 推荐(0)

数据结构与算法—布隆过滤器

摘要：引入什么情况下需要布隆过滤器？我们先来看几个比较常见的例子：字处理软件中，需要检查一个英语单词是否拼写正确在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上在网络爬虫里，一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能这几个例子有一个共同的特点：如何判断一个元素是否存在阅读全文

posted @ 2019-05-27 15:34 亦海阅读(433) 评论(0) 推荐(0)

数据结构与算法—Trie树

摘要： Trie，又经常叫前缀树，字典树等等。它有很多变种，如后缀树，Radix Tree/Trie，PATRICIA tree，以及bitwise版本的crit-bit tree。当然很多名字的意义其实有交叉。 Trie树是一种非常重要的数据结构，它在信息检索，字符串匹配等领域有广泛的应用，同时，它也是很阅读全文

posted @ 2019-05-27 09:22 亦海阅读(1485) 评论(0) 推荐(1)

亦小海