摘要:
现在的重复内容检测逻辑是:
首先对文章内容较长的,是基于Shingle的重复检测办法;
其次对文章很短的,比如cnBeta摘要输出的RSS内容,比如Solidot,比如南方报业旗下的RSS内容,先提取标签,然后计算文章的标签相似度。
这两种办法算起来很快,但未必总能检测出来重复,继续积累吧。 阅读全文
posted @ 2010-01-07 01:00
老兵笔记
阅读(2736)
评论(0)
推荐(1)
浙公网安备 33010602011771号