随笔分类 - 搜索相关
摘要:一直想 学习下C++开源引擎的源代码,比较了下xapian,lemur,firtex,最终还是决定从xapian开始,以后有时间再看下lemur。 选择xapian是因为xapian的代码可读性更强,更接近现代C++风格,用户端代码很少需要直接和指针打交道而看了下lemur示例代码到处都是指针不太爽,呵呵,还是了解不多吧,总之从xapian开始吧。 xapian的索引建立 xapian提供多种不同的索引方式比如in memory, flnt格式的等待(具体没有仔细看)。 在xapian中提供一个基类DataBase表示索引数据库,WriteableDataBase继承自DataBase. X
阅读全文
摘要:1.简介 在所有的二元检索模型中,文档会被归为两类,相关文档和不相关文档。我们的任务是确定新来的文档是属于相关文档还是不相关文档。 如何判断相关与否,我们认为新来的文档如果属于相关文档的概率大于不相关文档,则归于相关文档,否则属于不相关文档。 //所谓的贝叶斯分类器 bayes classifer, R relevant , D document //贝叶斯公式 所以 我们判断是相关即要求 这个后面会引出BM25模型 2.如何计算P(D|R) 采用二元模型,我们用一个文档中所有词的出现概率来计算P(D|R),我们不考虑词的位置,也不考虑出现次数,并且我们假设采用1gram模型,也即A
阅读全文

浙公网安备 33010602011771号