向量相似性搜索详解：Flat Index、IVF 与 HNSW

要理解向量搜索先要弄清楚为什么需要向量数据库，关系型数据库处理结构化数据得心应手。所谓结构化数据就是那些具有固定列的表格数据，比如说：姓名、年龄、薪资、日期。这类数据精确匹配查询很简单："Age > 25"或"Name = Subham"就能拿到想要的结果。

但现实中大量数据是非结构化的：电子邮件、短信、社交媒体帖子、音频录音、手写笔记、会议记录。SQL 数据库虽然能存储这些文本和音频却无法理解其中的语义。搜索"car"时，关键词匹配会漏掉写着"automobile"的内容。

Embeddings

机器学习模型可以将非结构化内容转换为 embedding：一组数字构成的向量，用来表征文本的语义。

存储和检索这些向量就是向量数据库的职责，它主要做两件事：高效存储向量，以及快速执行最近邻搜索（语义搜索）。

简单概括：关系型数据库擅长精确的结构化查询；向量数据库擅长对非结构化数据做相似性检索。

posted @ 2026-04-11 18:27 deephub 阅读(20) 评论(0) 收藏举报

刷新页面返回顶部