4.ik分词器详解
一、ik分词器的编译安装
Github提供了相关安装、编译、测试的方法及es与ik版本对应的说明,本人根据里面的说明,自己实操了一下,记录备忘。
https://github.com/medcl/elasticsearch-analysis-ik/tree/v5.0.0
1.编译安装
elasticsearch-analysis-ik-5.0.0.zip 解压,将此maven项目导入eclipse中,需要下载jar包一定时间
build.. -->clean package ,
将此releases目录中 zip 文件 上传到 ik 这个目录中: /bswifi/server/elasticsearch-5.0.0/plugins/ik
以root用户解压elasticsearch-analysis-ik-5.0.0.zip,重新给/bswifi/ 赋权限(需要以root身份):chown caolihua:caolihua /bswifi/ -R
2.重启es
##jps 查看进程,kill 掉该进程即可
bin/elasticsearch -d 查看日志
,即该插件被加载进来了。
所有节点都需要安装ik,如上操作。
3.参阅github上的
Quick Example
索引一些数据,查看kibama测试:
//创建索引库
curl -XPUT http://192.168.0.100:9200/index
//创建表
curl -XPOST http://192.168.0.100:9200/index/fulltext/_mapping -d'
{
"fulltext": {
"_all": {
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word",
"term_vector": "no",
"store": "false"
},
"properties": {
"content": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word",
"include_in_all": "true",
"boost": 8
}
}
}
}'
//上传数据
curl -XPOST http://192.168.0.100:9200/index/fulltext/1 -d'
{"content":"美国留给伊拉克的是个烂摊子吗"}
'
curl -XPOST http://192.168.0.100:9200/index/fulltext/2 -d'
{"content":"公安部:各地校车将享最高路权"}
'
curl -XPOST http://192.168.0.100:9200/index/fulltext/3 -d'
{"content":"中韩渔警冲突调查:韩警平均每天扣1艘中国渔船"}
'
curl -XPOST http://192.168.0.100:9200/index/fulltext/4 -d'
{"content":"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"}
'


输入关键词:

关键词分为:ik_max_word和ik_smart 两种分词方式,这点与Ansj的分词方式不同,Ansj是采用最长优先匹配+概率的方式,底层二叉树的数据结构,我对ik分词的源码还不是很了解,后续再详细介绍。
源码分析:ik插件启动会加载配置文件,
,该文件中指定了分词的类
,pom文件中,我们可以修改这个类完成我们自定义的功能。
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
二、自动热加载新的词
#### 参考这个文章,后续再总结一下
http://www.cnblogs.com/zlslch/p/6441315.html
浙公网安备 33010602011771号