MongoDB学习笔记

Mongodb数据库

非关系型数据库

mongodb的优势：

易扩展：NoSQL数据库种类繁多，但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系，这样就非常容易扩展
大数据量，高性能：NoSQL数据库都具有非常高的读写性能，尤其在大量数据下，同样表现优秀。这得益于他的无关系性，数据库的结构简单
灵活的数据模型：NoSQL无需事先为要存储的数据建立字段，随时可以存储自定义的数据格式。而在关系型数据库里，增删字段是一件非常麻烦的事情去。如果是非常大数据量的表，增加字段简直就是一个噩梦

mongodb的安装

命令安装：

sudo apt-get install -y mongodb
https://docs.mongodb.com/manual/tutorial/install-mongodb-on-ubuntu/

源码安装：

# 解压
tar -zxvf mongodb-linux-x86_64-ubuntu1604-3.4.0.tgz
# 移动到安装目录下    /usr/local/
sudo mv -r mongodb-linux-x86_64-ubuntu1604-3.4.0/ /usr/local/mongodb
# 将可执行文件添加到PATH路径中
export PATH=/usr/local/mongodb/bin:$PATH

mongodb的启动：

服务端mongodb的启动

启动方式1:

启动: sudo service mongod start
停止: sudo service mongod stop
重启: sudo service mongod restart
配置文件的位置：/etc/mongod.conf
日志的位置：/var/log/mongodb/mongod.log
默认端⼝：27017

启动方式2:

启动: sudo mongod [--dbpath=dbpath --logpath=logpath --append -fork] [–f logfile ]
只以 sudo mongod 命令启动时，默认将数据存放在了 /data/db 目录下，需要手动创建
--dbpath: 指定数据库的存放路径
--logpath: 指定日志的存放路径
--logappend: 设置日志的写入形式为追加模式
-fork: 开启新的进程运行mongodb服务
f: 配置文件(可以将上述配置信息写入文件然后通过本参数进行加载启动)

客户端mongo

启动本地客户端:mongo
查看帮助：mongo –help
退出：exit或者ctrl+c

mongodb的官方文档：https://docs.mongodb.com/manual/introduction/

mongodb的权限管理：

mongodb是没有默认管理员账号，所以要先添加管理员账号，并且mongodb服务器需要在运行的时候开启验证模式

用户只能在用户所在的数据库登录（创建用户的数据库），包括管理员账号
管理员可以管理所有数据库，但是不能直接管理其他数据库，要先认证后才可以

mongodb超级管理员账号的创建

以权限认证的方式启动mongodb数据库
```
sudo mongod -auth
```
启动之后再启动信息中会有如下信息，说明mongodb以权限认证的方式启动成功
```
[initandlisten] options: { security: { authorization: "enabled" } }
```

创建超级用户使用admin数据库（超级管理员账号必须创建在该数据库上）

use admin

创建超级用户

db.createUser({"user":"用户名","pwd":"密码","roles":["root"]})  # roles 权限

创建成功会显示如下信息

Successfully added user: { "user" : "python", "roles" : [ "root" ] }

退出客户端再次登录验证，此时在使用数据库各命令的时候会报权限错误，需要认证才能执行相应操作
```
use admin
db.auth('python','python')
1
```
python用户是创建在admin数据库上的所以必须来到admin数据库上进行认证,认证成功会返回1，失败返回0

创建普通用户：

选择需要创建用户的数据库
```
use test1
```

在使用的数据库上创建普通用户

db.createUser("user":"user1", "pwd":"pwd1", roles:["read"])
创建普通用户user1,该用户在test1上的权限是只读
db.createUser("user":"user1", "pwd":"pwd1", roles:["readWrite"])
创建普通用户user1,该用户在test1上的权限是读写

在其它数据库上创建普通用户

use admin
db.createUser({"user":"python1", "pwd":"python1", 
			  roles:[{"role":"read","db":"dbname1"},{"role":"readWrite","db":"dbname2"}]})
# 在admin上创建python1用户，python1用户的权限有两个，一个再dbname1上的只读，另一个是在dbname2上的读写

查看创建的用户：

show users

删除用户

db.dropUser('用户名')

mongodb的基本使用

mongodb数据库的命令：

查看当前的数据库：db(没有切换数据库的情况下默认使用test数据库)
查看所有的数据库：show dbs / show databases
切换数据库：use db_name
删除当前的数据库：db.dropDatabase()

mongodb集合的命令：

不手动创建集合：向不存在的集合中第一次加入数据时，集合就会被常见出来
手动创建集合：
- db.createCollection(name,options)
- db.createCollection("stu")
- db.createCollection("sub", { capped : true, size : 10 } )
- 参数capped：默认值为false表示不设置上限,值为true表示设置上限
- 参数size：当capped值为true时，需要指定此参数，表示上限⼤⼩,当⽂档达到上限时，会将之前的数据覆盖，单位为字节
查看集合：shoe collections
删除集合：db.集合名称.drop()
检查集合是否有上限：db.集合名.isCapped()

mongodb中常见的数据类型：

Object ID：⽂档ID
String：字符串，最常⽤，必须是有效的UTF-8
Boolean：存储⼀个布尔值， true或false
Integer：整数可以是32位或64位，这取决于服务器
Double：存储浮点值
Arrays：数组或列表，多个值存储到⼀个键
Object：⽤于嵌⼊式的⽂档，即⼀个值为⼀个⽂档
Null：存储Null值
Timestamp：时间戳，表示从1970-1-1到现在的总秒数
Date：存储当前⽇期或时间的UNIX时间格式

注意点：

每个文档都有一个属性，为_id，保证每个文档的唯一性，mongodb默认使用_id为主键，可以自己去设置_id插入文档，如果没有提供，那么mongodb为每个文档提供了一个独特的_id，类型为object()
object()是一个12字节的十六进制数，每个字节两位，一共是24位的字符串：前4个字节为当前时间戳，接下来3个字节的机器ID，接下来2个字节的mongodb的服务进程ID，最后3个字节是简单的增量值

mongodb的增删改查

mongodb的插入：

db.集合名称.insert(document)

  db.stu.insert({name:'gj',gender:1})
  db.stu.insert({_id:"20170101",name:'gj',gender:1})

插⼊⽂档时，如果不指定_id参数， MongoDB会为⽂档分配⼀个唯⼀的ObjectId

mongodb的保存：

命令：db.集合名称.save(document)如果文档的_id已经存在修改，如果⽂档的_id不存在则添加

mongodb的简单查询：

命令：db.集合名称.find()

mongodb的更新：

命令：db.集合名称.update(<query> ,<update>,{multi: <boolean>})

参数query:查询条件
参数update:更新操作符
参数multi:可选，默认是false，表示只更新找到的第⼀条记录，值为true表示把满⾜条件的⽂档全部更新

db.stu.update({name:'hr'},{name:'mnc'})           全文档进行覆盖更新
db.stu.update({name:'hr'},{$set:{name:'hys'}})    指定键值更新操作
db.stu.update({},{$set:{gender:0}},{multi:true})   更新全部

注意："multi update only works with $ operators"

mongodb的删除：

命令：db.集合名称.remove(<query>,{justOne: <boolean>})

参数query:可选，删除的⽂档的条件
参数justOne:可选，如果设为true或1，则只删除⼀条，默认false，表示删除多条

mongodb的高级查询

数据查询：

方法find()：查询

db.集合名称.find({条件文档})
方法findOne()：查询，值返回第一个

db.集合名称.findOne({条件文档})
方法pretty()：将结果格式化

db.集合名称.find({条件文档}).pretty()

比较运算符：

等于：默认是等于判断，没有运算符
⼩于：$lt （less than）
⼩于等于：$lte （less than equal）
⼤于：$gt （greater than）
⼤于等于：$gte
不等于：$ne

逻辑运算符：

and：在json中写多个条件即可
or：使用$or，值为数组、数组中每个元素为json

范围运算符：

使用$in，$nin判断数据是否在某个数组内

正则表达式：

使用//或$regex编写正则表达式

自定义查询：

由于mongo的shell是一个js的额执行环境，使用$where后写一个函数，则返回满足条件的数据

db.stu.find({
    $where:function() {
        return this.age>30;}
})

skip和limit

⽅法limit()：⽤于读取指定数量的⽂档

  db.集合名称.find().limit(NUMBER)
  查询2条学⽣信息
  db.stu.find().limit(2)

⽅法skip()：⽤于跳过指定数量的⽂档

  db.集合名称.find().skip(NUMBER)
  db.stu.find().skip(2)

同时使用

  db.stu.find().limit(4).skip(5)
  或
  db.stu.find().skip(5).limit(4)

注意：先使用skip在使用limit的效率要高于前者

投影：

在查询到的返回结果中，只选择必要的字段，

命令db.集合名称.find({},{字段名称:1, ...})

参数为字段与值，值为1 表示显示，值为0不显示。

对于_id列默认是显示的，如果不显示需要明确设置为0

排序：

方法sort()用于对集合进行排序

命令：db.find().sort({字段:1, ...})

参数1为升序，参数-1位降序

统计个数：

方法count()用于统计结果中文档条数

命令：db.集合名称.find({条件}).count()；命令：db.集合名称.count({条件})

去重：

方法distinct()对数据去重

命令：db.集合名称.distinct('去重字段', {条件})

mongodb的聚合操作

聚合是基于数据处理的聚合管道，每个文档通过一个由多个阶段（stage）组成的管道，可以对每个阶段的管道进行分组、过滤等功能，然后经过一些列的处理，输出相应的结果

语法：db.集合名称.aggregate({管道:{表达式}})

常用的管道命令：

在mongodb中，⽂档处理完毕后，通过管道进⾏下⼀次处理常用管道命令如下：

%group：将集合中的文档进行分组，可用于统计结果
$match：过滤数据，只输出符合条件的文档
$project：修改输入文档的结构，如重命名、增加、删除字段、创建计算结果
$sort：将输入文档排序后输出
$limit：限制聚合管道返回的文档数
$skip：跳过指定数量的文档，并返回余下的文档

常用表达式：

表达式：处理输入文档并输出。语法：表达式:'$列名'，常用的表达式：

$sum：计算总和，$sum:1 表示以⼀倍计数
$avg：计算平均值
$min：获取最⼩值
$max：获取最⼤值
$push：在结果⽂档中插⼊值到⼀个数组中

`$group`管道命令

$group是所有聚合命令中用的最多的一个命令，用来将集合中的文档分组，可用于统计结果

使用示例如下

db.stu.aggregate(
    {$group:
        {
            _id:"$gender",
            counter:{$sum:1}
        }
    }
)

其中注意点：

db.db_name.aggregate是语法，所有的管道命令都需要写在其中
_id 表示分组的依据，按照哪个字段进行分组，需要使用$gender表示选择这个字段进行分组
$sum:1 表示把每条数据作为1进行统计，统计的是该分组下面数据的条数

group by null

当我们需要统计整个文档的时候，$group 的另一种用途就是把整个文档分为一组进行统计

使用实例如下：

db.stu.aggregate(
    {$group:
        {
            _id:null,
            counter:{$sum:1}
        }
    }
)

其中注意点：

_id:null 表示不指定分组的字段，即统计整个文档，此时获取的counter表示整个文档的个数

数据透视

正常情况在统计的不同性别的数据的时候，需要知道所有的name，需要逐条观察，如果通过某种方式把所有的name放到一起，那么此时就可以理解为数据透视

`$project`管道命令

$project用于修改文档的输入输出结构，例如重命名，增加，删除字段

`$sort`管道命令

$sort用于将输入的文档排序后输出

`$skip` 和 `$limit`管道命令

$limit限制返回数据的条数
$skip 跳过指定的文档数，并返回剩下的文档数
同时使用时先使用skip在使用limit

mongodb索引

作用：

加快了查询速度
进行数据去重

mongodb创建简单索引的方法

语法
- db.集合.ensureIndex({属性:1})，1表示升序，-1表示降序
- db.集合.createINdex({属性:1})
- 上面两个命令效果等价
具体操作：db.db_name.ensureIndex({name:1})
查看：默认情况下_id是集合的索引
- 查看方式：db.collection_name.getIndexes()

mongodb创建唯一索引（`unique`）

在默认的情况下mongodb的索引域的值是可以相同的，创建唯一索引之后，数据库会在插入数据的时候检查创建索引域的值是否存在，如果存在则不会插入该条数据，但是创建索引仅仅能够提高查询速度，同时降低数据库的插入速度

添加唯一索引的语法：

db.collection_name.ensureIndex({"name":1},{"unique":true})

删除索引

语法：db.dropIndex({'索引名称':1})

建立复合索引

在进行数据去重的时候，可能用一个域来保证数据的唯一性，这个时候可以建立复合索引

建立复合索引的语法：db.collection_name.ensureIndex({字段1:1,字段2:1})

建立索引注意点

根据需要选择是否需要建立唯一索引
索引字段是升序还是降序在单个索引的情况下不影响查询效率，但是带复合索引的条件下会有影响
数据量巨大并且数据库的读出操作非常频繁的时候才需要创建索引，如果写入操作非常频繁，创建索引会影响写入速度

mongodb的备份恢复与导入导出

备份：保证数据库的安全，主要用于灾难处理

语法：mongodump -h dbhost -d dbname -o dbdirectory

-h：服务器地址，也可以指定端口号
-d：需要备份的数据库名称
-o：备份的数据存放位置，此目录中存放着备份出来的数据

恢复：

语法：mongorestore -h dbhost -d dbname --dir dbdirectory

-h：服务器地址
-d：需要恢复的数据库实例
--dir：备份数据所在位置

导出：

用于和其他平台进行交互对接，将数据导出成指定格式文件进行使用

导出语法：mongoexport -h dbhost -d dbname -c colname -o filename --type json/csv -f field

-h: 服务器地址
-d: 数据库名
-c: 集合名
-o: 导出文件名
--type: 文件类型，默认json格式，可选数据类型json，csv
-f: 需要导出的字段,导出为json格式的数据时可以不指定导出哪些字段，默认全部，导出成csv文件是必须指定

导入：

导入语法: mongoimport -d dbname -c colname --file filename [--headerline --type json/csv -f field]

-h: 服务器地址
-d: 数据库名
-c: 集合名
-o: 导出文件名
--type: 文件类型，默认json格式，可选数据类型json，csv
-f: 需要导出的字段,导出为json格式的数据时可以不指定导出哪些字段，默认全部，导出成csv文件是必须指定

mongodb与python的交互

pymongo安装：

pip install pymongo

使用：

导入pymongo并选择要操作的集合，数据库和集合会自动创建

from pymongo import MongoClient
client = MongoClient(host,port)
collection = client[db名][集合名]

添加数据：`insert`可以批量的插入数据，也可以插入一条数据

collection.insert([{"name":"test10010","age":33},{"name":"test10011","age":34}]/{"name":"test10010","age":33})

添加一条数据

ret = collection.insert_one({"name":"test10010","age":33})
print(ret)

添加多条数据

item_list = [{"name":"test1000{}".format(i)} for i in range(10)]
# insert_many接收一个列表，列表中为所有需要插入的字典
t = collection.insert_many(item_list)

查找一条数据

# find_one查找并且返回一个结果,接收一个字典形式的条件
t = collection.find_one({"name":"test10005"})
print(t)

查找全部数据

结果是一个Cursor游标对象，是一个可迭代对象，可以类似读文件的指针，但是只能够进行一次读取

# find返回所有满足条件的结果，如果条件为空，则返回数据库的所有
t = collection.find({"name":"test10005"})
# 结果是一个Cursor游标对象，是一个可迭代对象，可以类似读文件的指针，
for i in t:
    print(i)
for i in t: #此时t中没有内容
    print(i)

更新一条数据(全文档覆盖更新一条或多条)

# update_one更新一条数据
collection.update({"name":"test10005"},{"name":"new_test10005"},multi=True/False)

更新一条数据(指定键值更新一条或多条)

注意使用$set命令

# update_one更新一条数据
collection.update({"name":"test10005"},{"$set":{"name":"new_test10005"}},multi=True/False)

更新一条数据