摘要: 最小哈希法最小哈希原理介绍MinHash是基于Jaccard Index相似度(海量数据不可行)的算法,一种降维的方法A,B 两个集合:A = {s1, s3, s6, s8, s9} B = {s3, s4, s7, s8, s10}MinHash的基本原理:在A∪B这个大的随机域里,选中的元素落在A∩B这个区域的概率,这个概率就等于Jaccard的相似度最小哈希:S1S2S3A100B010C000D101行的随机排列转换(也称置换运算)S1S2S3B010D101A100C000哈希值:排列转换后的行排列次序下第一个列值为1的行的行号,例如h(S1)=D,h(S2)=B两个集合经随机排列 阅读全文
posted @ 2012-12-20 12:39 跳刀的兔子 阅读(10157) 评论(0) 推荐(2) 编辑