minhash算法详解和LSH

俄亥俄州立 算法讲义(非常详细)

http://web.cse.ohio-state.edu/~sun.397/courses/au2018/FPM-basic-osu-1114.pdf

minhash性质 

 

 

 

 

 

 任意k个元素中有一个是排列Pi下的minhash的概率为k/|X|

在|C1交C2|中选一个才有可能是相同的minhash

 

 

 

 

 LSH

 

 

 

 b表示一共用20个band

 r表示一个band由r个数组成 如果两个band的这r个数都相同,他们就会被映射到同一个桶中

 

 

 

每一列是一个签名

每一行是一个所有签名的组合

b*r为产生签名的hash函数个数

 

 如果在一个hash函数的作用下被映射到同一个桶中,就作为一个candidate pair 不管其他的hash函数作用下它们会如何映射

 

 

如果b很小 r很大 两个签名被hash到同一个桶的概率很小 

r越大 就要满足越多的元素均相同才会被hash到同一个桶中 概率降低

 

 

 

 如果Jaccard similarity很大 几乎所有的都会是false postive

如果Jaccard similarity很小 几乎不会有false postive

 

 

  对比上下两幅图 直线上方的部分为原先应该被映射到一起却未被映射到一起的元素

 

 

 

 

posted @ 2020-11-05 20:50  柠檬味呀  阅读(903)  评论(0编辑  收藏  举报