asp.net C# 痕风

所有的开心与痛苦都会随风飘向远方,
什么也不会留下.
唯有未干的双眼让人们知道发生过.
还有小小

  博客园 :: 首页 :: 联系 :: 订阅 订阅 :: 管理
  36 Posts :: 23 Stories :: 19 Comments :: 1 Trackbacks

搜索

收集一些搜索的资料放在一起方便查看.
     摘要: 通常仅知道关键词在哪些文章中出现还不够,我们还需要知道关键词在文章中出现次数和出现的位置,通常有两种位置:
a)字符位置,即记录该词是文章中第几个字符(优点是关键词亮显时定位快);
b)关键词位置,即记录该词是文章中第几个关键词(优点是节约索引空间、词组(phase)查询快),lucene中记录的就是这种位置。
加上“出现频率”和“出现位置”信息后,我们的索引结构变为:
关键词 文章号[出现频率] 出现位置  阅读全文
posted @ 2007-11-06 22:40 何随风 阅读(76) | 评论 (0)  编辑

     摘要: 一种方法就是先做倒排索引,再查找。什么是倒排索引呢?请看下面的例子:
假设文章1的内容是:aaa bbb ccc ddd
文章2的内容是:bbb ddd yyy

上面的对应关系是:“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。文章1,2经过倒排后变成:
aaa 1
bbb 1,2
ccc 1
ddd 1,2
yyy 2  阅读全文
posted @ 2007-11-06 22:26 何随风 阅读(64) | 评论 (0)  编辑