mongodb指南(翻译)(二十) - developer zone - 索引(四)地理信息索引

v1.4+

MongoDB支持2维地理信息索引。它被设计用来进行脑海中基于位置的查询,诸如“查找距离我的位置最近的N个场所”。它还可以高效的处理额外的查询条件,比如“查找距离我的位置最近的N个博物馆”。

为了可以使用这种索引,你需要在你的对象中设置一个字段,该字段可以是一个子对象或者前两个元素为x,y坐标的数组(或者y,x-只要一致就行;为了确保一致性,推荐在你的客户端代码中使用保持排序的词典/hashes。)。

一些例子:

{ loc : [ 50 , 30 ] } //SUGGESTED OPTION
{ loc : { x : 50 , y : 30 } }
{ loc : { foo : 50 , y : 30 } }
{ loc : { lon : 40.739037, lat: 73.992964 } }

创建该索引

db.places.ensureIndex( { loc : "2d" } )

默认情况下,该索引假定你在索引经度/维度,并且这些值的范围是[-180,180].

如果你在索引其他东西,你可以指定一些选项:

db.places.ensureIndex( { loc : "2d" } , { min : -500 , max : 500 } )

这会对索引扩容来存储-500到500范围的值。地理信息边界搜索目前是限制在长方形和圆形之内不含边界以外。你不能插入边界[min,max)之外的值。例如,

使用上面的代码,点(-500,500)不能被插入并且会触发一个错误(但是,点(-500,499)是可以的)。

db.places.ensureIndex( { loc : "2d" } , { bits : 26 } )

bits参数设定了2D geo-hash值的精度,存储位置的最小记录。默认情况下,精度设置为26位,这大体等同于(经度,纬度)定位的1步长,默认的边界为(-180,180)。要对拥有更大边界的空间建立索引,可以将位数增大到最大值32.

当前,你仅能为每一个集合创建一个地理信息索引。

模糊大小数组语法仅能使用在不低于V1.9的版本,在“foo.bak”中的“2d”可以引用的内嵌字段类似于:

{ foo : [ { bar : [ ... ] } ] }

这个限制即使在并不是每个文档都有多个位置时依然存在并且数组大小为1.在老版本中,你需要将内嵌位置嵌入到非数组中:

{ foo : { bar : [ ... ] } }

查询

该索引可以用来进行精确查询:

db.places.find( { loc : [50,50] } )

当然,这并不是很有趣。更重要的是查询某个点附近的点,并且不需要精确匹配:

db.places.find( { loc : { $near : [50,50] } } )

上面的查询寻找离(50,50)最近的点并且按距离排序后返回(这里不需要增加排序参数)。使用limit()指定最大返回个数(默认返回100个):

db.places.find( { loc : { $near : [50,50] } } ).limit(20)

你还可以对$near增加一个最大距离的参数:

db.places.find( { loc : { $near : [50,50] , $maxDistance : 5 } } ).limit(20)

所有地理空间查询中的距离同文档坐标系统中的单位一样(除了接下来讨论的球面查询)。例如,如果你索引的区域大小为[300,300),表示一个300*300平米地段,并且你有两个(10,20)和(10,30)的文档(代表在(x,y)的点),你可以这样查询 $near:[10,20],$maxDistance:10.距离单位和你的坐标系统一样,因此这个查询查找距离该点10米以内的目标点。

联合索引

MongoDB地理信息索引支持可选的从键。如果你经常对地址和其他属性同时查询,可以增加其他属性到该索引。其他属性作为索引的注解,可以让过滤执行的更快。例如:

db.places.ensureIndex( { location : "2d" , category : 1 } );
db.places.find( { location : { $near : [50,50] }, category : 'coffee' } );

geoNear命令

尽管find()函数是通常的首先,MongoDB还是提供了一个执行类似功能的geoNear命令。geoNear命令可以在查询结果中返回每个点距离查询点的距离,也有一些故障诊断信息。

合法的选项有:“near”,"num","maxDistance","distanceMultiplier"和“query”。

> db.runCommand( { geoNear : "places" , near : [50,50], num : 10 } );
> db.runCommand({geoNear:"asdf", near:[50,50]})
{
"ns" : "test.places",
"near" : "1100110000001111110000001111110000001111110000001111",
"results" : [
{
"dis" : 69.29646421910687,
"obj" : {
"_id" : ObjectId("4b8bd6b93b83c574d8760280"),
"y" : [
1,
1
],
"category" : "Coffee"
}
},
{
"dis" : 69.29646421910687,
"obj" : {
"_id" : ObjectId("4b8bd6b03b83c574d876027f"),
"y" : [
1,
1
]
}
}
],
"stats" : {
"time" : 0,
"btreelocs" : 1,
"btreelocs" : 1,
"nscanned" : 2,
"nscanned" : 2,
"objectsLoaded" : 2,
"objectsLoaded" : 2,
"avgDistance" : 69.29646421910687
},
"ok" : 1
}

上面的命令返回距离(50,50)最近的10个点。(在该集合上面检查2d索引时会自动确定loc字段)

如果你需要增加过滤器,可以这样做:

> db.runCommand( { geoNear : "places" , near : [ 50 , 50 ], num : 10,
... query : { type : "museum" } } );

query可以是任意常规的mongo query。
边界查询

可以使用$within代替$near在某个图形内部进行查询。返回的结果并不是按距离进行排序的,在这种无排序的情况下查询会更快一些。支持的图形类型有$box(矩形),$center(圆形),和$polygon(凹和凸的多边形)。所有的边界查询默认包含了图形的边,尽管在浮点类型情形下这一点不能严格依赖。

查询矩形内所有点,你必须指定左下角和右上角的坐标:

> box = [[40.73083, -73.99756], [40.741404, -73.988135]]
> db.places.find({"loc" : {"$within" : {"$box" : box}}})

通过中心点坐标和半径来指定一个圆形:

> center = [50, 50]
> radius = 10
> db.places.find({"loc" : {"$within" : {"$center" : [center, radius]}}})

通过一个数组或者对象来指定多边形。多边形最后一个点默认会和第一个点相连。

> polygonA = [ [ 10, 20 ], [ 10, 40 ], [ 30, 40 ], [ 30, 20 ] ]
> polygonB = { a : { x : 10, y : 20 }, b : { x : 15, y : 25 }, c : { x : 20, y : 20 } }
> db.places.find({ "loc" : { "$within" : { "$polygon" : polygonA } } })
> db.places.find({ "loc" : { "$within" : { "$polygon" : polygonB } } })

多边形查询严格限定在多边形内部,目前文档内的多边形不能被Mongodb建立索引。

多位置文档

Mongodb还支持对多位置文档建立索引。这些位置可以通过子对象中的数组来指定,例如:

> db.places.insert({ addresses : [ { name : "Home", loc : [55.5, 42.3] }, { name : "Work", loc :
[32.3, 44.2] } ] })
> db.places.ensureIndex({ "addresses.loc" : "2d" })

多位置也可以在单独的字段指定:

> db.places.insert({ lastSeenAt : [ { x : 45.3, y : 32.2 }, [54.2, 32.3], { lon : 44.2, lat : 38.2 } ]
})
> db.places.ensureIndex({ "lastSeenAt" : "2d" })

默认情况下,当在包含多位置文档的集合上执行geoNear或者 $near类型的查询时,相同的文档可能会返回多次。使用$within操作符的查询默认不会返回重复文档。

在V2.0,可以通过对geoNear和$within查询使用$uniqueDocs参数来覆盖默认参数,类似于:

> db.runCommand( { geoNear : "places" , near : [50,50], num : 10, uniqueDocs : false } )
> db.places.find( { loc : { $within : { $center : [[0.5, 0.5], 20], $uniqueDocs : true } } } )

目前不能对$near指定$uniqueDocs参数。

另外,当使用geoNear查询和多位置文档时,在返回距离的同时也返回生成距离的位置信息是很有用的。在v2.0,对geoNear查询指定includeLocs:true
就可以返回位置信息了。返回的位置是文档的位置信息的一份拷贝-如果位置是一个数组,这个对象会有“0”,“1”字段。

> db.runCommand({ geoNear : "places", near : [ 0, 0 ], maxDistance : 20, includeLocs : true })
{
"ns" : "test.places",
"near" : "1100000000000000000000000000000000000000000000000000",
"results" : [
{
"dis" : 5.830951894845301,
"loc" : {
"x" : 3,
"y" : 5
},
"obj" : {
"_id" : ObjectId("4e52672c15f59224bdb2544d"),
"name" : "Final Place",
"loc" : {
"x" : 3,
"y" : 5
}
}
},
{
"dis" : 14.142135623730951,
"loc" : {
"0" : 10,
"1" : 10
},
"obj" : {
"_id" : ObjectId("4e5266a915f59224bdb2544b"),
"name" : "Some Place",
"loc" : [
[
10,
10
],
[
50,
50
]
]
}
},
{
"dis" : 14.142135623730951,
"loc" : {
"0" : -10,
"1" : -10
},
"obj" : {
"_id" : ObjectId("4e5266ba15f59224bdb2544c"),
"name" : "Another Place",
"loc" : [
[
-10,
-10
],
[
-50,
-50
]
]
}
}
],
"stats" : {
"time" : 0,
"btreelocs" : 0,
"nscanned" : 5,
"objectsLoaded" : 3,
"avgDistance" : 11.371741047435734,
"maxDistance" : 14.142157540259815
},
"ok" : 1
}

分片环境

Mongodb支持在分片环境下使用地理信息索引。

posted on 2012-01-18 10:52  xinghebuluo  阅读(5374)  评论(2编辑  收藏  举报

导航