摘要:我们来看最复杂的部分,就是Term Dictionary和Term Index文件,Term Dictionary文件的后缀名为tim,Term Index文件的后缀名是tip,格式如图所示。Term Dictionary文件首先是一个Header,接下来是PostingsHeader,这两个的格式... 阅读全文
posted @ 2014-08-29 21:14 刘超觉先 阅读 (18278) 评论 (2) 编辑
摘要:1. 定长编码最容易想到的方式就是常用的普通二进制编码,每个数值占用的长度相同,都占用最大的数值所占用的位数,如图所示。这里有一个文档ID列表,254,507,756,1007,如果按照二进制定长编码,需要按照最大值1007所占用的位数10位进行编码,每个数字都占用10位。和词典的格式设计中顺序列表... 阅读全文
posted @ 2014-08-29 11:40 刘超觉先 阅读 (10132) 评论 (7) 编辑