摘要:
在数据准备阶段,系统对多种格式(如PDF、TXT)的文档进行多模解析,转换为统一的文本对象,同时附加元数据(如标题、创建时间),以便于检索和过滤。接着,系统构建正向和倒排索引,为检索提供高效的数据支持。 检索过程分为两个阶段。第一阶段采用BM25算法,利用倒排索引基于词频(TF)和逆文档频率(IDF 阅读全文
posted @ 2025-05-04 17:48
caiji11
阅读(107)
评论(0)
推荐(0)
浙公网安备 33010602011771号