solr配置停止词,同义词和扩展词库 (转载)
原文地址: http://my.oschina.net/132722/blog/142772
停止词:lucene的停止词是无功能意义的词,比如is 、a 、are 、”的”,“得”,“我” 等,这些词会在句子中多次出现却无意义,所以在分词的时候需要把这些词过滤掉。
扩展词库:就是不想让哪些词被分开,让他们分成一个词。
同义词:假设有一个电子商务系统,销售书籍,提供了一个搜索引擎,一天,市场部的人要求客户在搜索书籍时,同义词就是比如输入“电子”,除了展示电子相关的书籍,还需要展现“机器”相关的书籍。
以IK分词器为例子说明怎么配置。
1:配置停止词和扩展词库。
将IKAnalyzer解压文件夹下的stopword.dic和IKAnalyzer.cfg.xml复制到tomcat/webapps/solr/WEB-INF/classes下,再新建一个ext.dic,里面的格式和stopword.dic一致。
并修改IKAnalyzer.cfg.xml如下面的格式可以配置多个停止词或者扩展词库文件。
<properties> <comment>IK Analyzer 扩展配置</comment> <!--用户可以在这里配置自己的扩展字典--> <entry key="ext_dict">ext.dic;</entry> <!--用户可以在这里配置自己的扩展停止词字典--> <entry key="ext_stopwords">english_stopword.dic;stopword.dic</entry> </properties>
这样就完成了。我在扩展词库ext.dic里面加上了 呼吸式酒精测试
测试扩展词库成功
作者:超期服役
出处:http://www.cnblogs.com/fengh/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
放飞梦想,传播知识,您的推荐会给我动力。↓↓↓↓

浙公网安备 33010602011771号