摘要: 通常仅知道关键词在哪些文章中出现还不够,我们还需要知道关键词在文章中出现次数和出现的位置,通常有两种位置: a)字符位置,即记录该词是文章中第几个字符(优点是关键词亮显时定位快); b)关键词位置,即记录该词是文章中第几个关键词(优点是节约索引空间、词组(phase)查询快),lucene中记录的就是这种位置。 加上“出现频率”和“出现位置”信息后,我们的索引结构变为: 关键词 文章号[出现频率] 出现位置 阅读全文
posted @ 2007-11-06 22:40 何随风 阅读(500) 评论(0) 推荐(0)
摘要: 一种方法就是先做倒排索引,再查找。什么是倒排索引呢?请看下面的例子: 假设文章1的内容是:aaa bbb ccc ddd 文章2的内容是:bbb ddd yyy 上面的对应关系是:“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。文章1,2经过倒排后变成: aaa 1 bbb 1,2 ccc 1 ddd 1,2 yyy 2 阅读全文
posted @ 2007-11-06 22:26 何随风 阅读(538) 评论(0) 推荐(0)
摘要: 基于NBearV4构架的开发流程图.一个.net的开发框架 阅读全文
posted @ 2007-11-06 22:17 何随风 阅读(770) 评论(0) 推荐(0)
@ilovexiao