simhash算法的原理(转)
摘要:载自:http://hi.baidu.com/jrckkyy/blog/item/ea2fced9e6cb1fe738012fa9.html第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值
阅读全文
posted @ 2011-09-12 17:12
浙公网安备 33010602011771号