摘要: 在数据准备阶段,系统对多种格式(如PDF、TXT)的文档进行多模解析,转换为统一的文本对象,同时附加元数据(如标题、创建时间),以便于检索和过滤。接着,系统构建正向和倒排索引,为检索提供高效的数据支持。 检索过程分为两个阶段。第一阶段采用BM25算法,利用倒排索引基于词频(TF)和逆文档频率(IDF 阅读全文
posted @ 2025-05-04 17:48 caiji11 阅读(75) 评论(0) 推荐(0)