Joyen.fu
日中则昃,月盈则食。
摘要: Simhash算法:Simhash算法由Google的Charikar提出,是将一篇文档转化为n位的签名,通过比较签名的相似度来计算原文档的相似度。签名越相近,则文档越相近。因此,整个过程就不会涉及到原文档文本内容的两两比较,就不需要存储这些海量文档的内容。simhash算法的输入是一个向量,输出是... 阅读全文
posted @ 2014-11-15 10:06 Joyen.fu 阅读(209) 评论(0) 推荐(0) 编辑