2012年8月17日

信息检索导论学习笔记(6)-索引压缩

摘要: 索引压缩为什么要压缩?增加内存存储内容, 增加高速缓存(caching)技术的利用率(加快速度)加快从磁盘到内存的数据传输速度 (同样加快速度)。(读压缩数据到内存+在内存中解压)比直接读入未压缩数据要快很多。(前提: 解压速度要很快)减少磁盘空间 (节省开销)词典压缩:词典压缩的主要动机: 使之能够尽量放入内存中倒排记录表压缩:倒排记录表压缩的主要动机: 减少磁盘存储空间,减少从磁盘读入内存的时间注意: 大型搜索引擎将相当比例的倒排记录表都放入内存有损(Lossy) vs 无损(Lossless)压缩有损压缩: 丢弃一些信息。前面讲到的很多常用的预处理步骤可以看成是有损压缩:统一小写,去除停 阅读全文

posted @ 2012-08-17 17:04 God bless you 阅读(3755) 评论(3) 推荐(0) 编辑

信息检索导论学习笔记(5)

摘要: 参数化索引及域索引 迄今为止,我们都将文档看成一系列词项的序列。实际上,大多数文档都具有额外的结构信息。数字文档通常会把与之相关的元数据(metadata)以机读的方式一起编码。所谓元数据,指的是和文档有关的一些特定形式的数据,比如文档的作者、标题以及出版日期等等。 问题:考虑查询“ 寻找由 William Shakespeare于 1601年撰写、其中包含短语 alas poor Yoric... 阅读全文

posted @ 2012-08-17 10:14 God bless you 阅读(1800) 评论(0) 推荐(0) 编辑

导航