摘要: 1.Locality Sensitive Hashing(LSH, 局部敏感哈希) 如果我们的数据非常大,有多个对象,如果一对一对的比较,需要比较N (N 1)/2,检查每一对数据很困难。 大体思路 :用一个函数f(x, y)来判断x和y是不是一个候选对,计算候选对的相似度。 For minhash 阅读全文
posted @ 2019-03-25 20:02 小雨的编程时光 阅读(469) 评论(0) 推荐(0)
摘要: 1.Shingling+MinHash 2. Learning to Hash 1.Introduction 很多的网页挖掘问题都可以表述为寻找相似集合: 1. 论文查重; 2. 推荐系统; 2.Finding Similar Documents 流程: 2.1 Shingles k shingle 阅读全文
posted @ 2019-03-23 12:13 小雨的编程时光 阅读(313) 评论(0) 推荐(0)