摘要: 一、为什么大模型知识库要分段 1. 背景 大模型(如 GPT、BERT、LLaMA 等)在做向量检索时,通常需要将文本内容切分成较小的段落(chunk),再分别生成 Embedding 存入向量库。如果不分段,直接用整篇长文生成向量,会出现: 向量语义稀释:长文本包含多个主题,向量会混合不同语义,降 阅读全文
posted @ 2026-01-06 15:51 西伯利亚的狼 阅读(11) 评论(0) 推荐(0)