Lucene.Net 简介

全文搜索引擎
是一个全文检索的开发包（可以把它看做一个提供全文检索功能的一个数据库）

注意：只能对文本信息进行检索
如果不是文本信息，要转化成文本信息

运行原理：
Lucene.Net 会把给它的文本分词（通俗：切词）保存
加快检索速度

如何进行分词：
分词算法：
一元分词效率高
二元分词

基于词库的分词算法：
盘古分词庖丁解牛（java）效率比较低，应用很广泛

注意在书写代码的时候：不要吧词库放在bin-》debug目录下
尽量不要对该目录下的进行修改因为如果不小心按了请出解决方案就会将该目录下内容清空

词库是文件属性设置成如果较新则复制

具体用法参考《PanguMannual.pdf》
打开PanGu4Lucene\WebDemo\Bin，将Dictionaries添加到项目根路径（改名为Dict），添加对PanGu.dll（同目录下不要有Pangu.xml，那个默认的配置文件的选项对于分词结果有很多无用信息）、PanGu.Lucene.Analyzer.dll的引用
把上节代码的Analyzer用PanGuAnalyzer代替
运行报错？通用技巧：把Dict目录下的文件“复制到输出目录”设定为“如果较新则复制”，每次生成的时候都会自动把文件拷到bin\Debug 下，非常方便。（只有Web应用程序有那个选项，网站没有。）永远不要对bing\debug下的东西做直接的修改，要改“源文件”。

posted @ 2011-09-22 00:14 wenyue 阅读(303) 评论(1) 收藏举报

刷新页面返回顶部