自定义分词器-基于ik_analyzer过滤json的key

由于工作需要，有时候字段中存储的值是诸如 {"name":"车辆vid"} 这样的值，并且我们只需要对json串中的value进行分词，而不需要对key也进行分词搜索

假设直接使用ik_max_word对json串进行分词，得到的结果如下所示：

可以看到，json的key也被解析成一個token了，这显然不是我们要的结果。

下面自定义一个名为my_custom_json_ik_analyzer的分詞器

PUT susu_test2
{
  "settings": {
      "analysis": {
        "analyzer": {
          "my_custom_json_ik_analyzer": {
            "char_filter": [
              "json_key_char_filter"
            ],
            "tokenizer": "ik_max_word"
          }
        },
        "char_filter": {
          "json_key_char_filter": {
            "pattern": "(\"\\w*\")(\\s*)(:)",
            "type": "pattern_replace",
            "replacement": ""
          }
        }
      }
  }
}

如下图：

该分词器是在ik_max_word的基础上，添加了【自定义的】名为json_key_char_filter的character filter，用于在分词前，先过滤掉字段中的json字符串的key。
而json_key_char_filter的character filter，则是基于 pattern_replace，用正则表达式的方式来将json字符串中的key给替换为空的方式，将json串中的key给替换掉了。

接下来测试自定义的分词器：

可以看到，自定义的分词器，只对json串的value进行分词。

posted @ 2021-08-31 17:09 象牙酥阅读(390) 评论(0) 收藏举报

刷新页面返回顶部

象牙酥

自定义分词器-基于ik_analyzer过滤json的key

公告