2017年3月18日

文档的相似度(2)--最小哈希签名

摘要: 接着上一篇的博客继续下去,这篇博客主要讲下最小哈希签名的东西。 对于上篇博客中提到的shingle,可以说是在压缩数据量的基础上又尽可能保留了源文档的特征,以便于后面对不同的文档进行相似度比较。但是我们会发现,shingle集合非常大,即使将每个shingle... 阅读全文

posted @ 2017-03-18 23:34 云端翱翔 阅读(1330) 评论(0) 推荐(0)

导航