摘要:
simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是 110001这个就很简单啦,正1负0。到此,如何从一个doc到一个simhas... 阅读全文
posted @ 2014-06-13 11:10
虚若怀谷
阅读(1256)
评论(0)
推荐(0)