coreseek优化

问题前提：

这篇博客是在你已经安装并使用coreseek的前提下，并且在使用过程中发现当前默认的分词效果不佳时作为参考。

参考：

Sphinx搜索一个比较变态的地方就是按最大匹配度搜索的。

比如分词中有江都，江都市，我搜江都市，是搜索不出江都的，同样如果搜索江都，也搜索不出江都市。

此时修改扩充分词库是没法解决问题的，我们需要建立同义词库。同义词库不需要自己填写，是根据分词库生成的。

python mmseg-3.2.13源代码/script/build_thesaurus.py unigram.txt > thesaurus.txt

thesaurus.txt文件的格式如下：

南京西路
-南京,西路,

mmseg -t thesaurus.txt

参考：

posted @ 2018-01-08 16:38 白色烟头阅读(173) 评论(0) 收藏举报

刷新页面返回顶部