随笔分类 - 数据挖掘
摘要:minHash好像不应该放这里,判断文档的相似性,分类也有问题,应该按照相似度算法划分到一起局部敏感哈希Locality Sensitive Hash一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构,诸如KD-Tree、SR-Tree相比,它较好地克服了Curse of Dimension,能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体(图像、音频)的相似性判断。LSH是一种概率方法,采用过滤一验证的框架(Filter一and一Refine framework)。在过滤阶段,LSH利用哈希技术把非相似、不可能成为结果的数据对象过滤掉,过滤之后的
阅读全文

浙公网安备 33010602011771号