4.ik分词器详解

一、ik分词器的编译安装

Github提供了相关安装、编译、测试的方法及es与ik版本对应的说明,本人根据里面的说明,自己实操了一下,记录备忘。

https://github.com/medcl/elasticsearch-analysis-ik/tree/v5.0.0 

1.编译安装

elasticsearch-analysis-ik-5.0.0.zip 解压,将此maven项目导入eclipse中,需要下载jar包一定时间

build..  -->clean package ,

 

  将此releases目录中 zip 文件  上传到   ik 这个目录中: /bswifi/server/elasticsearch-5.0.0/plugins/ik

 

以root用户解压elasticsearch-analysis-ik-5.0.0.zip,重新给/bswifi/ 赋权限(需要以root身份):chown caolihua:caolihua /bswifi/ -R

2.重启es

##jps  查看进程,kill 掉该进程即可

bin/elasticsearch -d 查看日志 ,即该插件被加载进来了。

所有节点都需要安装ik,如上操作。

3.参阅github上的

Quick Example

索引一些数据,查看kibama测试:

//创建索引库
curl -XPUT http://192.168.0.100:9200/index
//创建表

curl -XPOST http://192.168.0.100:9200/index/fulltext/_mapping -d'
{
"fulltext": {
"_all": {
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word",
"term_vector": "no",
"store": "false"
},
"properties": {
"content": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word",
"include_in_all": "true",
"boost": 8
}
}
}
}'

//上传数据

curl -XPOST http://192.168.0.100:9200/index/fulltext/1 -d'
{"content":"美国留给伊拉克的是个烂摊子吗"}
'
curl -XPOST http://192.168.0.100:9200/index/fulltext/2 -d'
{"content":"公安部:各地校车将享最高路权"}
'
curl -XPOST http://192.168.0.100:9200/index/fulltext/3 -d'
{"content":"中韩渔警冲突调查:韩警平均每天扣1艘中国渔船"}
'
curl -XPOST http://192.168.0.100:9200/index/fulltext/4 -d'
{"content":"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"}
'

 

 

 输入关键词:

 关键词分为:ik_max_word和ik_smart 两种分词方式,这点与Ansj的分词方式不同,Ansj是采用最长优先匹配+概率的方式,底层二叉树的数据结构,我对ik分词的源码还不是很了解,后续再详细介绍。

源码分析:ik插件启动会加载配置文件,,该文件中指定了分词的类,pom文件中,我们可以修改这个类完成我们自定义的功能。

 

 

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

 二、自动热加载新的词

#### 参考这个文章,后续再总结一下

http://www.cnblogs.com/zlslch/p/6441315.html 

 

posted on 2017-05-11 14:15  老曹123  阅读(885)  评论(0)    收藏  举报

导航