LangChain 系列教程（三）：Retrieval

介绍

Retrieval 指的是通过自然语言查询，从海量数据中检索相关信息的过程。经常被应用于构建一个“私人的知识库”，构建过程更多的是将外部数据存储到知识库中。

细化这一模块的主要职能有四部分，其包括数据的获取、整理、存储和查询。如下图：

fig:

Retrieval 由几个部分组成：

fig:

Embedding Model(嵌入模型)是一种将文本、图像等输入内容转化为向量表示(vector representation)的模型，它的主要目的是让机器能够“理解”和“比较”自然语言的语义。

常用的Embedding Model包括 OpenAI 的 text-embedding-ada-002、Sentence-BERT 系列、Cohere 多语言模型以及适配中文的 text2vec 和 bge 模型，广泛用于语义搜索、问答和推荐等任务。

fig:

在Embedding Model中，需要实现两个目标：

Text Splitters(文本拆分器)将文档分割成更小的块，以便在下游应用程序中使用。

常见的文档切分策略包括基于长度、文本结构、文档结构和语义内容的切分，分别适用于不同场景以提升处理效率和语义准确性。

fig:

文本分割具有多种好处：

Vector Stores(向量数据库)是一种支持基于向量检索的数据库，用于存储嵌入（embedding）向量，并能根据语义相似度高效检索相关数据（如文本、图像、音频等）。它是构建 RAG（Retrieval-Augmented Generation）系统的核心组件。

因为大语言模型（LLM）无法“记住”全部外部知识，所以我们需用嵌入模型将文档转成向量，并存入 Vector Store，实现基于语义相似度的高效检索。这样可以帮助模型从海量文本中找出与用户提问“语义最相关”的部分，提升回答的准确性与上下文关联性。

fig:

在 LangChain 中，Retriever 是一个接口组件，允许你使用自然语言查询从各种存储系统中检索相关文档。它是 RAG（Retrieval-Augmented Generation）系统的核心部分之一。

常见 Retriever 类型包括向量检索器（基于语义相似度）、关键词检索器（如 BM25/TF-IDF）、搜索 API 检索器（如 Wikipedia）、以及数据库检索器（如 SQL/图数据库），它们适用于不同的数据结构和查询需求。

每个retriever都需要实现以下基本方法：

docs = retriever.invoke("你的问题")

posted @ 2025-06-05 15:06 Orzjh 阅读(111) 评论(0) 收藏举报

刷新页面返回顶部