es进阶之best fields和most fields

dis_max

基于dis_max实现best feilds策略进行多字段搜索。

best fields策略，是将某一个field匹配尽可能多的关键词的doc优先返回回来。

1、添加文档数据

POST /forum/article/_bulk
{ "update": { "_id": "1"} }
{ "doc" : {"content" : "i like to write best elasticsearch article"} }
{ "update": { "_id": "2"} }
{ "doc" : {"content" : "i think java is the best programming language"} }
{ "update": { "_id": "3"} }
{ "doc" : {"content" : "i am only an elasticsearch beginner"} }
{ "update": { "_id": "4"} }
{ "doc" : {"content" : "elasticsearch and hadoop are all very good solution, i am a beginner"} }
{ "update": { "_id": "5"} }
{ "doc" : {"content" : "spark is best big data solution based on scala ,an programming language similar to java"} }

2、搜索条件：搜索title或content中包含java或solution的帖子

# 多字段搜索
GET /forum/article/_search
{
    "query": {
        "bool": {
            "should": [
                { "match": { "title": "java solution" }},
                { "match": { "content":  "java solution" }}
            ]
        }
    }
}

3、结果分析

期望doc5的数据优先返回，结果却是doc2的优先返回。

计算每个document的relevance score：每个query的分数，乘以matched query数量（匹配到的条件的数量），除以总query数量。

产生上述结果的原因分析：

模拟计算：

计算doc2的分数：

{ "match": { "title": "java solution" }}，针对doc2能匹配到，是有一个分数的。

{ "match": { "content": "java solution" }}，针对doc2能匹配到，也是有一个分数的。

所以是两个分数加起来，比如说，1.1 + 1.2 = 2.3

matched query数量 = 2

总query数量 = 2

2.3 * 2 / 2 = 2.3

算一下doc5的分数

{ "match": { "title": "java solution" }}，针对doc5匹配不到，是没有分数的

{ "match": { "content": "java solution" }}，针对doc5能匹配到，是有一个分数的

所以说，只有一个query是有分数的，比如2.3

matched query数量 = 1

总query数量 = 2

2.3 * 1 / 2 = 1.15

doc5的分数 = 1.15 < doc2的分数 = 2.3

4、best fields策略，dis_max

best fields策略，就是搜索结果根据某个field匹配到尽可能多的关键字的数据排在前面，而不是尽可能多的field匹配到少量的关键词排在前面。

dis_max 语法，直接取多个query中，分数最高的那个即可。

{ "match": { "title": "java solution" }}，针对doc2，是有一个分数的，1.1
{ "match": { "content": "java solution" }}，针对doc2，也是有一个分数的，1.2
取最大分数，1.2

{ "match": { "title": "java solution" }}，针对doc5，是没有分数的
{ "match": { "content": "java solution" }}，针对doc5，是有一个分数的，2.3（java solution 都匹配到了，分数比较高）
取最大分数，2.3

doc2的分数 = 1.2 小于 doc5的分数2.3，所以doc5就能排在更前面的地方，符合我们的需求。

5、使用dis_max查询

GET /forum/article/_search
{
  "query":{
    "dis_max": {
      "queries": [
        { "match": {"title": "java solution"} },
        { "match": {"content": "java solution"} }
      ]
    }
  }
}

posted @ 2022-02-18 17:03 头牌彭鱼宴、阅读(305) 评论(0) 收藏举报

刷新页面返回顶部

Loading

头牌彭鱼宴、

es进阶之best fields和most fields

dis_max

公告