随笔档案「2026年1月6日」：知识库-分段-向量-检索 ... - 西伯利亚的狼

2026年1月6日

摘要：一、为什么大模型知识库要分段 1. 背景大模型（如 GPT、BERT、LLaMA 等）在做向量检索时，通常需要将文本内容切分成较小的段落（chunk），再分别生成 Embedding 存入向量库。如果不分段，直接用整篇长文生成向量，会出现：向量语义稀释：长文本包含多个主题，向量会混合不同语义，降阅读全文

posted @ 2026-01-06 15:51 西伯利亚的狼阅读(11) 评论(0) 推荐(0)

西伯利亚的狼

生不带来死不带去，我们总要在这个世界上留下点痕迹。

公告