会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
西伯利亚的狼
生不带来死不带去,我们总要在这个世界上留下点痕迹。
博客园
首页
新随笔
联系
订阅
管理
2026年1月6日
知识库-分段-向量-检索
摘要: 一、为什么大模型知识库要分段 1. 背景 大模型(如 GPT、BERT、LLaMA 等)在做向量检索时,通常需要将文本内容切分成较小的段落(chunk),再分别生成 Embedding 存入向量库。如果不分段,直接用整篇长文生成向量,会出现: 向量语义稀释:长文本包含多个主题,向量会混合不同语义,降
阅读全文
posted @ 2026-01-06 15:51 西伯利亚的狼
阅读(11)
评论(0)
推荐(0)
公告