青松

博客园 首页 新随笔 联系 订阅 管理

dotLucene搜索加入中文分词

应用
WhitespaceAnalyzer
1 、
建索引时,将文档先通过分词程序分词,如“张冲这个混蛋”
分词后为 张冲 这 个 混蛋
然后停止词过滤,索引用WhitespaceAnalyzer即可!

2、搜索时,和上面一样执行分词、停止词过滤, 搜索的时候同样用WhitespaceAnalyzer即可

也可以考虑“张冲 混蛋” 2个词语进行坡度设置来完成查询,张、冲setSlop(0),混、蛋setSlop(0)
对这2(或多个)词组的PhraseQuery做BooleanQuery来查询(感觉这个麻烦)

可以考虑写个ChineseAnalyzer
posted on 2007-04-27 10:25  轻轻松松  阅读(324)  评论(0编辑  收藏  举报