04 2017 档案
摘要:索引压缩的作用 词典压缩 笔者认为词典压缩算法对中文搜索来说意义不大。之所以要压缩词典,主要是因为Heaps定律指出,随着文档数目的增加,词汇表会持续增长而不会稳定到一个最大值。而中文分词与英文分词的不同在于中文分词是基于词典的,词汇主要来源于词典,因此除非有新词挖掘算法不断扩充词典,否则索引中的中
阅读全文
摘要:注:本文主要记录这次解决内存溢出问题的过程而不是具体问题。 最近在写一个搜索引擎,使用倒排索引结构进行文档检索,保存索引的基本思想是先将倒排列表保存到内存中一个有序Map里(TreeMap),然后当内存占用达到一定阈值的时候将内存中的倒排列表有序写入磁盘,当磁盘已经存在索引时,则将内存中的索引和磁盘
阅读全文
摘要://查看占用内存最多的前K的程序ps aux | sort -k4nr | head -K//查看占用CPU最多的前K的程序 ps aux | sort -k3nr | head -K
阅读全文