2017年3月15日

文档的相似度(1)--Jaccard相似度与文档的shingling

摘要: 在当今的计算机高速发展的时代,对于文章的查重等涉及到数据比对的需求越来越高了。 为了识别字面上相似的文档,日常生活中我们所做的就是比对两个文档中相似的语句的比重,如果大部分内容都是相同的话,那么我们就会判定这两篇文档很大程度上是有抄袭嫌疑的。其实这个过程完全是可以类比到计算中来的,... 阅读全文

posted @ 2017-03-15 21:18 云端翱翔 阅读(2229) 评论(0) 推荐(0)

导航