2025年3月10日

稠密向量+稀疏向量+全文搜索+张量重排=最佳检索RAG?

摘要: RAG中的混合检索如下图: 为什么要混合搜索(multi-way recall)? 越来越多的人认为,仅仅依靠向量搜索,通常是密集向量,可能并不总是产生令人满意的结果。当用户的特定查询关键字与存储的数据不精确匹配时,这种限制就会变得明显。这是因为向量本身不能表示精确的语义信息:向量可以表示一个词、一 阅读全文

posted @ 2025-03-10 16:07 ExplorerMan 阅读(482) 评论(0) 推荐(0)

BM25 和向量检索的区别

摘要: BM25和向量检索是两种不同的信息检索方法,它们在原理、效率、语义理解能力等方面存在显著区别,适用于不同的应用场景。以下是两者的详细对比: 方面BM25向量检索 原理 基于词频(TF)和逆文档频率(IDF)的统计方法,通过计算查询词与文档的相关性得分。 使用深度学习技术将文本转换为高维向量,通过向量 阅读全文

posted @ 2025-03-10 16:03 ExplorerMan 阅读(322) 评论(0) 推荐(0)

RAG 再添新利器!智源开源最强检索排序模型 BGE Re-Ranker v2.0

摘要: BGE(BAAI General Embedding)是智源研究院打造的通用语义向量模型。自2023年8月发布以来,智源团队陆续发布了中英文模型BGE v1.0、v1.5以及多语言模型 BGE-M3,截至目前,BGE 系列模型全球下载量超过 1500万,位居国内开源AI模型首位。BGE-M3模型一度 阅读全文

posted @ 2025-03-10 11:43 ExplorerMan 阅读(1485) 评论(0) 推荐(0)

稠密向量检索、稀疏向量检索、BM25检索三者对比

摘要: 在当今的信息检索领域,随着人工智能和自然语言处理技术的发展,稠密向量检索和稀疏向量检索成为了两种主要的研究方向。稠密向量检索依托于高维空间中的向量表示,能够捕捉文档的深层语义信息,而稀疏向量检索则侧重于关键词的匹配,依赖于文档中词条的存在与否。此外,BM25算法作为一种经典的信息检索模型,以其高效处 阅读全文

posted @ 2025-03-10 11:41 ExplorerMan 阅读(1349) 评论(0) 推荐(0)

导航