文章分类 -  全文检索

摘要:在Sphinx-for-Chinese的分词细粒度问题中说过,为了解决分词的粒度问题,我们对Sphinx-for-Chinese的代码进行了一些修改,而针对精确匹配我们也写了一些额外的代码,虽然这一部分的代码并不是很好看,但毕竟解决了问题,所以也想对这一部分进行说明,因为相信其他人也会遇到类似的问题 阅读全文
posted @ 2018-03-26 15:19 丰study 阅读(207) 评论(0) 推荐(0)
摘要:假如使用Sphinx来做搜索引擎,就一定会遇到分词问题。对于中文,有两个选择,选择1是使用Sphinx自带的一元分词,选择2是使用CoreSeek或者Sphinx-for-Chinese,这两个都使用了mmseg来进行分词。据我了解,CoreSeek在支持细粒度的分词,而Sphinx-for-Chi 阅读全文
posted @ 2018-03-26 15:11 丰study 阅读(1442) 评论(0) 推荐(0)
摘要:提要:本来之前一直都是使用whoosh作为全文搜索,后面在使用的过程愈发的发现这个东西的搜索并不特别的完美。并且生成的索引量又十分巨大。所以考虑换一个,最后选了sphinx来作为新的搜索。而且网上的安装例子都并不是很全。因此做下记录。 介绍 Sphinx是一个基于SQL的全文检索引擎,可以结合MyS 阅读全文
posted @ 2018-03-23 11:58 丰study 阅读(479) 评论(0) 推荐(0)
摘要:Sphinx是一个基于SQL的全文检索引擎,但对中文用户来说一个致命的缺陷是不支持中文。后来在网上发现了一个基于 Sphinx 的支持切词的全文搜索引擎 sphinx-for-chinese。下载下来安装使用后发现很好用,下面介绍一下具体的安装过程。 下载所需的安装包sphinx-for-chine 阅读全文
posted @ 2018-03-23 11:41 丰study 阅读(324) 评论(0) 推荐(0)