摘要:        
通常仅知道关键词在哪些文章中出现还不够,我们还需要知道关键词在文章中出现次数和出现的位置,通常有两种位置:
a)字符位置,即记录该词是文章中第几个字符(优点是关键词亮显时定位快);
b)关键词位置,即记录该词是文章中第几个关键词(优点是节约索引空间、词组(phase)查询快),lucene中记录的就是这种位置。
加上“出现频率”和“出现位置”信息后,我们的索引结构变为:
关键词   文章号[出现频率]   出现位置    阅读全文
posted @ 2007-11-06 22:40
何随风
阅读(500)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一种方法就是先做倒排索引,再查找。什么是倒排索引呢?请看下面的例子:
假设文章1的内容是:aaa bbb ccc ddd
文章2的内容是:bbb ddd yyy
    上面的对应关系是:“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。文章1,2经过倒排后变成:
aaa 1
bbb 1,2
ccc 1
ddd 1,2
yyy 2    阅读全文
posted @ 2007-11-06 22:26
何随风
阅读(538)
评论(0)
推荐(0)
        
            
        
        
摘要:        
基于NBearV4构架的开发流程图.一个.net的开发框架    阅读全文
posted @ 2007-11-06 22:17
何随风
阅读(770)
评论(0)
推荐(0)
        
 
                    
                     
                    
                 
                    
                
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号