最近邻查询优化方法相似度度量

1. 基本原理
其实，这种问题本来是很容易解决的，只要设计好了数据相似度的度量方法（有关相似度量的方法详细可参考我之前的博客：数据相似性的度量方法总结）计算所有数据与查询的距离，比较大小即可。但是随着数据量的增大以及数据维度的提高，这种方法就很难在现实中应用了，因为效率会非常低。解决此类问题的思路基本分为两类：
（1）通过构建索引，快速排除与查询相关度不大的数据；
（2）通过降维的方法，对数据条目先降维，再查询；
前者主要是为了解决数据量过大的问题，比较常见的有我们熟知的二叉搜索树，Merkel tree，B-tree，quad-tree等；后者主要是为了解决维度过大的问题，比较常见的方法有我在上一篇博客中讲的LSH：LSH(Locality Sensitive Hashing)原理与实现
————————————————
原文链接：https://blog.csdn.net/guoziqing506/article/details/54692392

(45条消息) 数据相似性的度量方法总结_guoziqing506的博客-CSDN博客_数据相似性分析

为了解决K-D tree在高维数据上划分的低效性，于是有了Ball-tree

posted @ 2021-12-08 11:35 cup_leo 阅读(95) 评论(0) 收藏举报

刷新页面返回顶部

cup_leo

最近邻查询优化方法 相似度度量

公告

最近邻查询优化方法相似度度量