摘要:
使用场景:Google 的 simhash 算法 //通过大量测试,simhash用于比较大文本,比如500字以上效果都还蛮好,距离小于3的基本都是相似,误判率也比较低。 //从我的经验,如果我们假定N是每个块的大小,M是重叠的字符的数目,N = 4和M = 3是最好的选择 public class SimHashAnalyser : IAnalyser { private const int HashSize = 32; public float GetLikenessValue(string needle, string haystack) ... 阅读全文