2017年3月19日

文档的相似度(4)--总结

摘要: 经过前三篇博客的介绍,关于文档相似度的分析已经基本结束了,下面做下总结。 此处给出一个完整的相似项发现方法: 首先找出可能的候选对相似文档集合,然后基于该集合发现真正的相似文档。必须强调的是,这种方法可能会产生伪反例,即某些相似文档对由于没有进入候选对所以最终没有被识别出来。... 阅读全文

posted @ 2017-03-19 21:16 云端翱翔 阅读(292) 评论(0) 推荐(0)

文档的相似度(3)--局部敏感哈希算法

摘要: 此篇博客将会接着上一篇博客继续文档相似度的分析。在上篇博客中我们已经可以利用最小哈希签名对文档间的相似度进行分析了,但是我们应该要发现,及时可以使用最小哈希签名将大文档压缩成小的签名同时保持任意对文档之间的预期相似度,但是高效寻找具有最大相似度的问的那个对仍是不可能的。主要原因在于... 阅读全文

posted @ 2017-03-19 21:02 云端翱翔 阅读(690) 评论(0) 推荐(0)

导航