10 2015 档案
摘要:比较不同的文章、图片啊什么的是否相似,如果一对一的比较,数据量大的话,以O(n2)的时间复杂度来看,计算量相当惊人。所以如果是找相同就好了,直接扔到一个hashmap中即可。这样就是O(n)的复杂度了。不过相同的字符串一定会得到相同的hash,而不同的字符串,哪怕只有一点点不同,也极可能得到完全不同hash。很自然的想到,要是相似的object能够得到相似的hash就好了。局部敏感哈希就是这样的h...
阅读全文
摘要:最近在学大数据这门课,课上讲到了一个关于尿布与啤酒的故事,说是发现在超市中尿布如果和啤酒放在一起能跟提高销量,原因是买尿布的多是父亲,这些人看到啤酒后就想买(这是什么逻辑)。当然,这个故事被证明是虚构的了信息来源。不过这个故事引出了一个问题,如果在一群放在不同类目(baskets)中的物品(items)中寻找成对(pair)的物品,且物品在不同类目中出现了至少threshold次,那么应该怎样做是...
阅读全文

浙公网安备 33010602011771号