MongoDB【aggregate, 与python交互】

聚合 aggregate

聚合(aggregate)主要用于计算数据，类似sql中的sum()、avg()
语法

db.集合名称.aggregate({管道:{表达式}})

管道

管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的输入

ps ajx | grep mongo

在mongodb中，管道具有同样的作用，文档处理完毕后，通过管道进行下一次处理
常用管道
- $group：将集合中的文档分组，可用于统计结果
- $match：过滤数据，只输出符合条件的文档
- $project：修改输入文档的结构，如重命名、增加、删除字段、创建计算结果
- $sort：将输入文档排序后输出
- $limit：限制聚合管道返回的文档数
- $skip：跳过指定数量的文档，并返回余下的文档
- $unwind：将数组类型的字段进行拆分

表达式

处理输入文档并输出
语法

表达式:'$列名'

常用表达式
- $sum：计算总和，$sum:1同count表示计数
- $avg：计算平均值
- $min：获取最小值
- $max：获取最大值
- $push：在结果文档中插入值到一个数组中
- $first：根据资源文档的排序获取第一个文档数据
- $last：根据资源文档的排序获取最后一个文档数据

$group

将集合中的文档分组，可用于统计结果
_id表示分组的依据，使用某个字段的格式为'$字段'
例1：统计男生、女生的总人数

db.stu.aggregate({$group:{_id:"$gender", counter:{$sum:1}}})

Group by null

将集合中所有文档分为一组
例2：求学生总人数、平均年龄

db.stu.aggregate({$group:{_id:null, counter:{$sum:1}, avgAge:{$avg:"$age"}}})

透视数据

例3：统计学生性别及学生姓名

db.stu.aggregate({$group:{_id:"$gender", name:{$push:"$name"}}})

使用$$ROOT可以将文档内容加入到结果集的数组中，代码如下

db.stu.aggregate({$group:{_id:"$gender", all:{$push:"$$ROOT"}}}).pretty()

$match

用于过滤数据，只输出符合条件的文档
使用MongoDB的标准查询操作
例1：查询年龄大于20的学生

db.stu.aggregate(
    {$match:{age:{$gt:20}}}
)

例2：查询年龄大于20的男生、女生人数

db.stu.aggregate(
    {$match:{age:{$gt:20}}},
    {$group:{_id:'$gender',counter:{$sum:1}}}
)

$project

修改输入文档的结构，如重命名、增加、删除字段、创建计算结果
例1：查询学生的姓名、年龄

 db.stu.aggregate({$project:{name:1, age:1,_id:0}})

例2：查询男生、女生人数，输出人数

 db.stu.aggregate({$group:{_id:"$gender", counter:{$sum:1}}}, {$project:{counter:1}})

$sort

将输入文档排序后输出
例1：查询学生信息，按年龄升序

db.stu.aggregate({$sort:{age:1}})

例2：查询男生、女生人数，按人数降序

 db.stu.aggregate({$group:{_id:"$gender", counter:{$sum:1}}}, {$sort:{counter:-1}})

$limit

限制聚合管道返回的文档数
例1：查询2条学生信息

 db.stu.aggregate({$limit:2})

$skip

跳过指定数量的文档，并返回余下的文档
例2：查询从第3条开始的学生信息

db.stu.aggregate({$skip:2})

例3：统计男生、女生人数，按人数升序，取第二条数据

db.stu.aggregate({$group:{_id:"$gender", counter:{$sum:1}}}, {$sort:{counter:1}}, {$skip:1})

注意顺序：先写skip，再写limit

$unwind

将文档中的某一个数组类型字段拆分成多条，每条包含数组中的一个值

语法1

对某字段值进行拆分

db.集合名称.aggregate({$unwind:'$字段名称'})

构造数据

db.t2.insert({_id:1,item:'t-shirt',size:['S','M','L']})

查询

db.t2.aggregate({$unwind:'$size'})

语法2

对某字段值进行拆分
处理空数组、非数组、无字段、null情况
- 属性preserveNullAndEmptyArrays值为false表示丢弃属性值为空的文档
- 属性preserveNullAndEmptyArrays值为true表示保留属性值为空的文档

db.inventory.aggregate({
    $unwind:{
        path:'$字段名称',
        preserveNullAndEmptyArrays:<boolean> #防止数据丢失
    }
})

构造数据

db.t3.insert([
{ "_id" : 1, "item" : "a", "size": [ "S", "M", "L"] },
{ "_id" : 2, "item" : "b", "size" : [ ] },
{ "_id" : 3, "item" : "c", "size": "M" },
{ "_id" : 4, "item" : "d" },
{ "_id" : 5, "item" : "e", "size" : null }
])

使用语法1查询

db.t3.aggregate({$unwind:'$size'})

查看查询结果，发现对于空数组、无字段、null的文档，都被丢弃了
问：如何能不丢弃呢？
答：使用语法2查询

db.t3.aggregate({$unwind:{path:'$size',preserveNullAndEmptyArrays:true}})

索引

在mysql中已经学习了索引，并知道索引对于查询速度的提升
mongodb也支持索引，以提升查询速度

步骤一：创建大量数据

在命令行中执行如下代码，向集合中插入10万条文档
注意：不要在图形界面中执行，因为软件原因无法插入10万条数据就会中断执行

for(i=0;i<100000;i++){
    db.t1.insert({name:'test'+i,age:i})
}

步骤二：数据查找性能分析

查找姓名为'test10000'的文档

db.t1.find({name:'test10000'})

使用explain()命令进行查询性能分析

db.t1.find({name:'test10000'}).explain('executionStats')

其中的executionStats下的executionTimeMillis表示整体查询时间，单位是毫秒
性能分析结果如下图，由于机器的配置原因这个时间也会不同

步骤三：建立索引

创建索引
1表示升序，-1表示降序

db.集合.ensureIndex({属性:1})
如
db.t1.ensureIndex({name:1})

步骤四：对索引属性查询

执行上面的同样的查询，并进行查询性能分析

db.t1.find({name:'test10000'}).explain('executionStats')

性能分析结果如下图

索引的命令

建立唯一索引，实现唯一约束的功能(确保值是唯一的)

db.t1.ensureIndex({"name":1},{"unique":true})

联合索引，对多个属性建立一个索引，按照find()出现的顺序

db.t1.ensureIndex({name:1,age:1})

查看文档所有索引

db.t1.getIndexes()

删除索引

db.t1.dropIndex('索引名称')

备份

语法

mongodump -h dbhost -d dbname -o dbdirectory  #　　mongodump  -h(iP:端口号)  -d (数据库)    -o (文件存放的路径)　　当从本地恢复/或备份时-h可以不写

-h：服务器地址，也可以指定端口号
-d：需要备份的数据库名称
-o：备份的数据存放位置，此目录中存放着备份出来的数据
例1

sudo mkdir test1bak
sudo mongodump -h 192.168.196.128:27017 -d test1 -o ~/Desktop/test1bak

恢复

语法

mongorestore -h dbhost -d dbname --dir dbdirectory　　＃　mongorestore -h(ip:端口号) -d 数据库名称  --dir  指定文件夹

-h：服务器地址
-d：需要恢复的数据库实例
--dir：备份数据所在位置
例2

mongorestore -h 192.168.196.128:27017 -d test2 --dir ~/Desktop/test1bak/test1

与python交互

官方文档http://api.mongodb.org/python/current/tutorial.html
进入虚拟环境py2_db，安装包pymongo

workon py2_db
pip install pymongo

引入模块pymongo

from pymongo import *

主要提供如下对象用于进行交互
- MongoClient对象：用于与MongoDB服务器建立连接
- DataBase对象：对应着MongoDB中的数据库
- Collection对象：对应着MongoDB中的集合
- Cursor对象：查询方法find()返回的对象，用于进行多行数据的遍历

MongoClient对象

使用init方法创建连接对象

client=MongoClient('主机ip',端口)

Database对象

通过client对象获取获得数据库对象

db=client.数据库名称

Collection对象

通过db对象获取集合对象

col=db.集合名称

主要方法如下
- insert_one：加入一条文档对象
- insert_many：加入多条文档对象
- find_one：查找一条文档对象
- find：查找多条文档对象
- update_one：更新一条文档对象
- update_many：更新多条文档对象
- delete_one：删除一条文档对象
- delete_many：删除多条文档对象

Cursor对象

当调用集合对象的find()方法时，会返回Cursor对象
结合for...in...遍历cursor对象

增加

方法insert_one接收一个字典作为参数，表示插入一条文档
方法insert_many接收一个列表作为参数，列表中的元素为字典，表示插入多条文档
创建mongodb_insert.py文件，代码如下

#coding=utf-8
from pymongo import *

if __name__=='__main__':
    try:
        #创建连接对象
        client=MongoClient(host='localhost',port=27017)
        #获得数据库，此处使用python数据库
        db=client.python
        #向集合stu中插入一条文档
        db.stu.insert_one({'name':'abc','gender':True})
        #如果插入成功则提示ok
        print 'ok'
    except Exception as e:
        print e

View Code

查询

方法find_one()返回满足条件的文档集中第一条数据，类型为字典
方法find()返回满足条件的所有文档，类型为Cursor对象，可以使用for...in遍历，每项为字典对象
创建mongodb_find.py文件，代码如下

#coding=utf-8
from pymongo import *

if __name__=='__main__':
    try:
        #创建连接对象
        client=MongoClient(host='localhost',port=27017)
        #获得数据库，此处使用python数据库
        db=client.python
        #查询一条文档
        #result=db.stu.find_one()
        #print result

        #查询多条文档
        result=db.stu.find({'hometown':'大理'})
        for item in result:
            print '%s--%s'%(item['name'],item['hometown'])
    except Exception, e:
        print e

View Code

修改

方法update_one()修改满足条件的文档集中的第一条文档
方法update_many()修改满足条件的文档集中的所有文档
注意：使用$set操作符修改特定属性的值，否则会修改整个文档
创建mongodb_update.py文件，代码如下

#coding=utf-8
from pymongo import *

if __name__=='__main__':
    try:
        #创建连接对象
        client=MongoClient(host='localhost',port=27017)
        #获得数据库，此处使用python数据库
        db=client.python
        #更新满足条件的第一条文档
        #db.stu.update_one({'gender':False},{'$set':{'name':'hehe'}})

        #更新满足条件的所有文档
        db.stu.update_many({'gender':True},{'$set':{'name':'haha'}})
        print 'ok'
    except Exception as e:
        print e

View Code

删除

方法delete_one()删除满足条件的文档集中第一条文档
方法delete_many()删除满足条件的所有文档
创建mongodb_delete.py文件，代码如下

#coding=utf-8
from pymongo import *

if __name__=='__main__':
    try:
        #创建连接对象
        client=MongoClient(host='localhost',port=27017)
        #获得数据库，此处使用python数据库
        db=client.python
        #删除满足条件的第一条文档
        #db.stu.delete_one({'gender':False})

        #删除满足条件的所有文档
        db.stu.delete_many({'gender':True})
        print 'ok'
    except Exception as e:
        print e

练习

使用python向集合t3中插入1000条文档，文档的属性包括_id、name
- _id的值为0、1、2、3...999
- name的值为'py0'、'py1'...
查询显示出_id为100的整倍数的文档，如100、200、300...，并将name输出
插入数据代码如下

#coding=utf-8

from pymongo import *

try:
    client=MongoClient('localhost',27017)
    db=client.py3
    col=db.t3
    for index in range(1000):
        col.insert_one({'_id':index,'name':'py%s'%index})
    print 'ok'
except Exception,e:
    print e

查询代码如下

#coding=utf-8

from pymongo import *

try:
    client=MongoClient('localhost',27017)
    db=client.py3
    col=db.t3
    cursor=col.find({'$where':'function(){return this._id%100==0;}'},{'_id':0,'name':1})
    for item in cursor:
        print item['name']
except Exception,e:
    print e

使用聚合Python交互

def main():
    pass
    # 链接数据库
    clienk = pymongo.MongoClient(host='localhost', port=27017)
    # 获取数据库对象
    db = clienk.kay
    # 使用聚合访问数据库　　男女生的总人数　升序　　隔一条取数据
    cur_info = db.stu.aggregate([{"$group": {"_id": "$gender", 'counter':{"$sum": 1}}}, {"$sort": {"counter": -1}}, {"$skip":1}])
    # 使用聚合查看男生女生的所有信息
    cur_info = db.stu.aggregate([{"$group": {"_id": "$gender", "all": {"$push": "$$ROOT"}}}])
    for i in cur_info:
        # 打印信息
        print(i)
        # 查看长度
        print(len(i['all']))

    print('ok')

View Code

posted @ 2017-08-20 21:23 凯哥吧阅读(1479) 评论(0) 收藏举报

刷新页面返回顶部

凯哥吧

MongoDB【aggregate, 与python交互】

聚合 aggregate

管道

表达式

$group

Group by null

透视数据

$match

$project

$sort

$limit

$skip

$unwind

语法1

语法2

索引

步骤一：创建大量数据

步骤二：数据查找性能分析

步骤三：建立索引

步骤四：对索引属性查询

索引的命令

备份

恢复

与python交互

MongoClient对象

Database对象

Collection对象

Cursor对象

增加

查询

修改

删除

练习

使用聚合Python交互

公告