随笔分类 -  搜索引擎

搜索引擎基础概念(3)—— 倒排列表
摘要:倒排列表 倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词,每个文档 会记录文档编号(DocID),单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息,这样与一个文档相关的信息被称做倒排索引项(Posting),包含这个单词的一 系列倒排索引项形成 阅读全文

posted @ 2018-10-05 09:55 码农小菜鸡 阅读(525) 评论(0) 推荐(0)

搜索引擎基础概念(2)—— 构建单词词典
摘要:Lucene单词词典 使用lucene进行查询不可避免都会使用到其提供的单词词典功能,即根据给定的term找到该term所对应的倒排文档id列表等信息。实际上lucene索引文件后缀名为tim和tip的文件实现的就是lucene的单词词典功能。 怎么实现一个单词词典呢?我们马上想到排序数组,即ter 阅读全文

posted @ 2018-10-05 09:38 码农小菜鸡 阅读(1425) 评论(0) 推荐(0)

搜索引擎基础概念(1)—— 倒排索引
摘要:“ 吾有三剑,唯子所择;皆不能杀人,且先言其状。一曰含光,视之不可见,运之不知有。其所触也,泯然无际,经物而物不觉。二曰承影,将旦昧爽之交,日夕昏明之际,北面而察之,淡淡焉若有物存,莫识其状。其所触也,窃窃然有声,经物而物不疾也。三曰宵练,方昼则见影而不见光,方夜见光而不见形。其触物也,騞然而过,随 阅读全文

posted @ 2018-10-04 15:11 码农小菜鸡 阅读(500) 评论(0) 推荐(0)

导航