LSH的基本原理

1：LocalitySensitive Hashing

LocalitySensitive Hashing 是构造一种Hash函数集｛g| R^d->U}其中d是点的维数，使得对任意的点p，q有：

——if||p-q|| <= r, then Pr[g(p)=g(q)] 要很高

——If ||p-q|| >cr, then Pr[g(p)=g(q)]要很低

如下图：

2：基于投影的LSH原理

如下图：

理如图：A(x_a, y_a), B(x_b, y_b), C(x_c, y_c), D(x_d, y_d);如果取的Hash函数为 H（A(x_a, y_a)）= x_a（即在X轴上的投影）；那么就有A，B，C，D在X轴上的投影分别是：x_a，x_b，x_c, x_d重点来了，空间相近的点在X轴上的投影也是相近的，这样我们可以利用这个特性来做临近点的查询，基于投影的LSH的基本原理就是这样的。

不过上面这种方法是能能保证挨得近的点hash后得到的一维值也挨的很近，但是一些本来不近的点在hash后，得到的也是很近的值，如A与D点。

3：(P1,P2,r,cr)-sensitive LSH的定义

A family H of functions h: Rd → U is called (P1,P2,r,cr)-sensitive, if for any p,q:
– if ||p-q|| <r then Pr[ h(p)=h(q) ] > P1
– if ||p-q|| >cr then Pr[ h(p)=h(q) ] < P2

第2部分的构造的H（A(x_a, y_a)）= x_a（即在X轴上的投影）是不能满足这个要求的，

解决的办法是：

如图，基本想法也是很简单的，就是在空间多做几条线，这样本来很久的点，无论在哪条线上的映射都是很近的，而挨的不近点可能在某个方向的的投影很近，但在其它方向就可能很远，这样，把每个方向的投影结果都利用（可以对这些结果在进行hash

如），就可以达到定义的要求。

现在的问题是：空间线怎么取？到底要取多少条这样的线？

空间的线怎样取，在E2LSH中，是根据标准正态分布取的，为什么这呢？我觉得是便于理论证明可以满足(P1,P2,r,cr)-sensitive LSH的定义。至于怎样证明还是需要看看作者的论文和相关文档。

posted @ 2012-03-14 10:43 jiejnan 阅读(3294) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

LSH的基本原理

公告