05 2012 档案
摘要:这篇论文定义并研究了序列的min-wise independent 家族。min-wise independent 家族在实践中常用于检测和过滤“近似重复”文件。 先上定义:对于S的子集F,如果 任意{0,1,2,3,...,n-1}的子集X,任意x∈X,当随机从F中选择映射π,都有 Pr(min{π(X)}= π(x)) = 1/|X| 即任何给定集合X,X的任何元素x在π的映射下有相同的机会成为X的最小元素。另外,大多数启发式hash函数和随机hash函数具有非常相近的行为。当然也有例外。Carter和Wegman定义了一致hash的概念。 弱一致:对于一个hash函...
阅读全文
摘要:大三开始加入了实验室,说来惭愧,毫无成果。再这样下去真不知道保研后,实验室的老师能不能收留我。为了监督自己学习,特开此博客,记录下读论文的点点滴滴。真正开始读论文,是从这篇开始《Entity Matching:How Similar is Similar》。说来也巧,论起渊源,论文的作者Wang Jiannan和Li Guoliang都是在哈工大读的本科,然后到清华读硕士,博士。实验室的老师王宏志貌似和他们很熟的样子,可能当年是同学。Li Guoliang现在又开始在工大招收博士了,只是我没这份能力,连申请的胆量都没有。计划写的下一篇博客便是这份论文的笔记。总不能等到Latex完全学会了再来写
阅读全文