摘要: 词典的格式设计词典中所保存的信息主要是三部分:Term字符串Term的统计信息,比如文档频率(Document Frequency)倒排表的位置信息其中Term字符串如何保存是一个很大的问题,根据上一章基本原理的表述中,我们知道,写入文件的Term是按照字典顺序排好序的,那么如何将这些排好序的Ter... 阅读全文
posted @ 2014-08-28 10:23 刘超觉先 阅读(23455) 评论(5) 推荐(10) 编辑