ElasticSearch 2 (16) - 深入搜索系列之近似度匹配

摘要

标准的全文搜索使用TF/IDF处理文档、文档里的每个字段或一袋子词。match 查询可以告诉我们哪个袋子里面包含我们搜索的术语，但这只是故事的一部分。它并不能告诉我们词语之间的关系。

考虑下面句子的区别：

Sue ate the alligator.
The alligator ate sue.
Sue never goes anywhere without her alligator-skin purse.

一个 match 查询 “sue alligator”会匹配所有三个文档，但是它不会告诉我们这两个词组合在一起是否为同一个意思，甚至是否为同一个段落。

要理解词语之间是如何相关的是个非常复杂的问题，我们无法只是简单使用另外一个类型的查询来解决此问题，但是我们至少可以查找到相关的词，因为他们出现在邻近的地方，甚至相互紧接着。

每个文档都可能会比我们例子中给出的要长的多：Sue 和 alligator 可能被其他段落隔离，即使可能有的文档中这些词之间相距较远，我们仍然希望能够将他们找出来，但是我们希望为邻近出现的文档给出更高的相关度分数。

这个问题属于短语匹配（phrase matching）或相似度匹配（proximity matching）的领域。

版本

elasticsearch版本: elasticsearch-2.x

内容

短语匹配（Phrase Matching）

与 match 查询类似，match_phrase 查询是标准全文搜索的核心，当我们想要查找邻近出现的词语时会使用到它：

GET /my_index/my_type/_search
{
"query": {
"match_phrase": {
"title": "quick brown fox"
}
}
}

与 match 查询类似，match_phrase 查询首先分析查询字符串并生成一个术语列表，然后它会搜索所有术语，但是只将包含所有 all 查询术语的文档放在相对应的位置上。一个“quick box”短语查询不会与我们任何文档匹配，因为没有任何文档包含短语 quick box。

match_phrase 查询也可以用一个phrase类型的match 来表示：

"match": {
"title": {
"query": "quick brown fox",
"type": "phrase"
}
}

术语位置（Term Positions）

当字符串被分析时，分析器不仅返回了一个术语列表，也包括每个术语在原字符串中的位置（position）、顺序（order）信息：

GET /_analyze?analyzer=standard
Quick brown fox

返回结果为：

{
"tokens": [
{
"token": "quick",
"start_offset": 0,
"end_offset": 5,
"type": "",
"position": 1 #1
},
{
"token": "brown",
"start_offset": 6,
"end_offset": 11,
"type": "",
"position": 2 #2
},
{
"token": "fox",
"start_offset": 12,
"end_offset": 15,
"type": "",
"position": 3 #3
}
]
}

#1 #2 #3 是每个术语处于原字符串中的位置。

位置可以存储与反向索引中，像 match_phrase 这样与位置相关的查询，可以用它来搜索包含所有这些词且顺序一致的文档，没有中间状态。

何谓短语（What Is a Phrase）

对于一个和短语“quick brown fox”匹配的文档来说，必须满足一下条件：

quick 、brown 和 fox 必须所有都出现在字段里。
brown 的位置必须比 quick 的位置大1。
fox 的位置必须比 quick 的位置大2。

如果任意一个条件不满足，文档就是不匹配的。

在内部，match_phrase 查询使用低层次段（span）查询处理位置相关的匹配，段查询是一种术语层的查询，所以它没有分析阶段；他们对给定的术语进行精确搜索。

幸亏多数人都不直接使用 span 查询，因为 match_phrase 已经足够好了，但是对于某些特殊字段，如专利搜索，会使用低层次查询来处理需要仔细构建位置的细致搜索。

混合（Mixing It Up）

要求短语的准确匹配可能约束过于严格，我们能希望使用“quick fox”仍然能搜索出包含“quick brown fox”的文档，尽管它们的位置并不严格相等。

我们可以引入一个参数 slop 到短语匹配来表示这种自由度（degree of flexibility）：

GET /my_index/my_type/_search
{
"query": {
"match_phrase": {
"title": {
"query": "quick fox",
"slop": 1
}
}
}
}

slop 参数告诉 match_phrase 查询在术语相距多远时，仍然会被认为是一个匹配的文档。这里的 相距多远 指的是使文档匹配所需将术语移动的次数。

用一个简单的例子，为了使查询 quick fox 能与包含 quick brown fox 的文档匹配，我们需要的 slop 为1：

Pos 1 Pos 2 Pos 3
-----------------------------------------------
Doc: quick brown fox
-----------------------------------------------
Query: quick fox
Slop 1: quick ↳ fox

尽管所有词都需要出现在短语匹配（phrase matching）中，在使用 slop 时，词的顺序不必完全一致。当 slop 的值足够高时，词可以处于任何位置。

如果要使 fox quick 能与我们的文档匹配，我们需要的 slop 值为 3：

Pos 1 Pos 2 Pos 3
-----------------------------------------------
Doc: quick brown fox
-----------------------------------------------
Query: fox quick
Slop 1: fox|quick ↵ #1
Slop 2: quick ↳ fox
Slop 3: quick ↳ fox

#1 注意这一步fox 和 quick 处于同一位置，因此，将词语的顺序从 fox quick 变化成 quick fox 还需要2步。

多值字段（Multivalue Fields）

如果将短语匹配使用到多值字段上会十分有趣，假如我们有下面这个文档：

PUT /my_index/groups/1
{
"names": [ "John Abraham", "Lincoln Smith"]
}

执行下面短语查询 Abraham Lincoln：

GET /my_index/groups/_search
{
"query": {
"match_phrase": {
"names": "Abraham Lincoln"
}
}
}

令人惊讶的是，尽管 Abraham 和 Lincoln 属于两个不同的人名，这个文档仍然可以被匹配到，这样的结果与数组在ElasticSearch内的索引方式相关。

当分析 John Abraham 的时候，生成下面信息：

Position 1: john
Position 2: abraham

当分析 Lincoln Smith 的时候，生成下面信息：

Position 3: lincoln
Position 4: smith

换句话说，ElasticSearch 为数组生成的token列表与“John Abraham Lincoln Smith”这样单个字符串生成的token列表一样。在例子中，当我们要查询“abraham lincoln”的时候，这两个词正好存在，而且他们是相邻的，这样就能匹配到文档。

幸运的是我们对这种情况有种变通的解决办法，叫做 position_offset_gap，我们需要将其配置到字段映射中：

DELETE /my_index/groups/ #1

PUT /my_index/_mapping/groups #2
{
"properties": {
"names": {
"type": "string",
"position_offset_gap": 100
}
}
}

#1 首先删除groups的映射以及所有这种类型下的文档
#2 创建正确的groups

position_offset_gap 值告诉ElasticSearch它需要为在当前每个新的数组元素位置上增加 position_offset_gap 所给出的值，现在我们得到的名字数组对应的术语位置如下：

Position 1: john
Position 2: abraham
Position 103: lincoln
Position 104: smith

这样，我们的短语查询“abraham lincoln”与文档不再匹配，因为他们之间相距100个位置，如果现在要想匹配到这个文档，我们需要为其指定 slop 值100。

越近越好（Closer Is Better）

与短语查询简单的将不包含准确短语的文档排除在外不同，近似查询（proximity query） ——一种 slop 值大于0的短语查询 —— 将查询术语的相似度融合到最终相关度分数 _score 中。为 slop 设置 50 或 100 这样很高的值，可以帮助我们排除掉词语之间相距十分远的那些文档，同时也能给那些词语间相距非常近的文档以高分。

下面相似度查询 “quick dog” 与两个包含 quick 和 dog 的文档都匹配，但是词语相距近的文档的分数更高：

POST /my_index/my_type/_search
{
"query": {
"match_phrase": {
"title": {
"query": "quick dog",
"slop": 50 #1
}
}
}
}

#1 注意这个 slop 值很高

{
"hits": [
{
"_id": "3",
"_score": 0.75, #1
"_source": {
"title": "The quick brown fox jumps over the quick dog"
}
},
{
"_id": "2",
"_score": 0.28347334, #2
"_source": {
"title": "The quick brown fox jumps over the lazy dog"
}
}
]
}
#1 quick 和 dog 更近，因此分数更高。
#2 quick 和 dog 较远，因此分数较低。

性能提升（Improving Performance）

短语和近似查询比简单的 match 要昂贵许多，因为一个 match 查询只需要在反向索引中对术语进行查找，而一个 match_phrase 查询需要计算和比较多个（可能重复的）术语的位置。

Lucene的性能测评一个简单的术语查询比一个短语查询快10倍，比一个近似查询（带有 slop 的短语查询）要快20倍，当然，这些代价来自于搜索时而非索引时。

通常情况下，短语查询的额外消耗并不像上面说的这些数字这样吓人，这些区别只说明一个简单的术语查询是相当快的，短语查询在典型的全文搜索下通常消耗的时间在毫秒级，无论在实际中，还是在一个繁忙的集群下都十分有用。

在某些变态的场景下，短语查询非常消耗资源，但这种情况并不常见。一个比较变态的例子是DNA测序，有许多许多完全相同的术语反复出现在不同位置。使用更高的 slop 值会大大增加位置的计算量。

所以我们可以通过何种方式来限制短语查询和近似查询对系统性能的消耗呢？一个有用的方法就是减少短语查询需要检查的文档总数。

重算分数（Rescoring Result）

在之前部分，我们讨论了使用近似查询来满足相关度的需求，而不是用它来包含或排除结果集中的文档。一个查询可能有百万个结果，但是我们的用户通常只对最前面的几页内容感兴趣。

简单的match查询以及将包含所有搜索术语的文档排在了结果的顶部，我们需要做的只是将排序好的结果与短语查询的匹配结果进行额外的相关度重排。

search API 用 rescoring 来支持这种功能。重算分数的过程使我们可以为每个shard里首 K 个值采用代价更高的计分算法——如短语查询，然后将这些结果根据他们的新分数进行重新排序。

请求如下：

GET /my_index/my_type/_search
{
"query": {
"match": { #1
"title": {
"query": "quick brown fox",
"minimum_should_match": "30%"
}
}
},
"rescore": {
"window_size": 50, #2
"query": { #3
"rescore_query": {
"match_phrase": {
"title": {
"query": "quick brown fox",
"slop": 50
}
}
}
}
}
}

#1 match 查询决定最终结果集中的数据以及对结果进行 TF/IDF 排名。
#2 window_size 是每个 shard 里参与重算分数的结果数。
#3 目前重算分的算法需要在另一个查询中进行，不过未来有计划增加更多的算法。

参考

elastic.co: Proximity Matching

posted @ 2016-03-08 09:20 Richaaaard 阅读(9658) 评论(0) 收藏举报

刷新页面返回顶部

伪架构师

Richaaaard的高清无码世界

ElasticSearch 2 (16) - 深入搜索系列之近似度匹配

ElasticSearch 2 (16) - 深入搜索系列之近似度匹配

摘要

版本

内容

短语匹配（Phrase Matching）

术语位置（Term Positions）

何谓短语（What Is a Phrase）

混合（Mixing It Up）

多值字段（Multivalue Fields）

越近越好（Closer Is Better）

相关的近似度（Proximity for Relevance）

性能提升（Improving Performance）

重算分数（Rescoring Result）

相关词查找（Finding Associated Words）

生成Shingles

多字段（Multifields）

Shingles查询（Searching for Shingles）

性能（Performance）

参考

公告