Tekkaman

导航

 

2014年3月1日

摘要: 【参数化索引及域索引】 考虑查询“ 寻找由WilliamShakespeare于1601年撰写、其中包含短语alaspoorYorick的文 档” 。和通常一样,查询的处理过程需要进行倒排记录表的合并操作,但是不同的是,这里在处 理上述查询时还会涉及到参数化索引(parametric index)上的合并操作。 (每每一个可搜索的参数分别制作一份倒排索引) 域(zone)和字段很相似,只是它的内容可以是任意的自由文本。字段通常的取值可能性 相对较小,而域可以由任意的、数目无限制的文本构成。 参数化索引及域索引的意思是把参数、域直接加入词典,如下: 但更普遍的方法是把信息记录在文档属... 阅读全文
posted @ 2014-03-01 22:36 Tekkaman 阅读(1365) 评论(0) 推荐(0)
 
摘要: 【索引压缩】 信息检索系统中的两个主要数据结构:词典及倒排索引。下面将介绍对这两个数据结构的各种压缩技术,这些技术对于构建高效的 IR 系统非常关键。进行压缩的一个优点显而易见:它能够节省磁盘空间。要达到 1∶4 的压缩比是非常容易的,也就是说可以降低 75%的索引存储开销。 索引压缩还有两个隐含的优点。第一是能增加高速缓存(caching)技术的利用率。在搜索 系统中,词典中某些条目及其索引往往比其他条目及其索引的使用更频繁。例如,如果将一个频 繁使用的查询词项 t 的倒排记录表放到高速缓存中,那么对仅由 t 构成的查询进行应答所需要的 计算完全可以在内存中完成。如果采用压缩技术,那么高.. 阅读全文
posted @ 2014-03-01 18:47 Tekkaman 阅读(3417) 评论(0) 推荐(0)