11 2025 档案
摘要:一、构成RAG的基本概念 Embeddings:用数学空间表达语义和文本间的关系 文本相似度: 表层:词汇重叠.深层:语义 语义相似度与距离:关注文本的深层含义与上下文,而非仅仅是词汇。 语义距离:越近,语义相似度越高;越远,语义相似度越低. 文档分块(chunking):将长文本按一定大小和分块策
阅读全文
摘要:一、TextSplitter TextSplitter继承自BaseDocumentTransformer,是一个抽象类,不能直接创建实例。 核心(内部)属性有: _chunk_size: 每块大小 _chunk_overlap: 每块之间的重叠区大小 _length_function: 计算大小的
阅读全文
浙公网安备 33010602011771号