MongoDB学习笔记

Mongodb数据库

非关系型数据库

mongodb的优势:

  • 易扩展:NoSQL数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展
  • 大数据量,高性能:NoSQL数据库都具有非常高的读写性能,尤其在大量数据下,同样表现优秀。这得益于他的无关系性,数据库的结构简单
  • 灵活的数据模型:NoSQL无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系型数据库里,增删字段是一件非常麻烦的事情去。如果是非常大数据量的表,增加字段简直就是一个噩梦

mongodb的安装

命令安装:

sudo apt-get install -y mongodb
https://docs.mongodb.com/manual/tutorial/install-mongodb-on-ubuntu/

源码安装:

# 解压
tar -zxvf mongodb-linux-x86_64-ubuntu1604-3.4.0.tgz
# 移动到安装目录下    /usr/local/
sudo mv -r mongodb-linux-x86_64-ubuntu1604-3.4.0/ /usr/local/mongodb
# 将可执行文件添加到PATH路径中
export PATH=/usr/local/mongodb/bin:$PATH

mongodb的启动:

服务端mongodb的启动

启动方式1:

  • 启动: sudo service mongod start
  • 停止: sudo service mongod stop
  • 重启: sudo service mongod restart
  • 配置文件的位置:/etc/mongod.conf
  • 日志的位置:/var/log/mongodb/mongod.log
  • 默认端⼝:27017

启动方式2:

  • 启动: sudo mongod [--dbpath=dbpath --logpath=logpath --append -fork] [–f logfile ]
  • 只以 sudo mongod 命令启动时,默认将数据存放在了 /data/db 目录下,需要手动创建
  • --dbpath: 指定数据库的存放路径
  • --logpath: 指定日志的存放路径
  • --logappend: 设置日志的写入形式为追加模式
  • -fork: 开启新的进程运行mongodb服务
  • f: 配置文件(可以将上述配置信息写入文件然后通过本参数进行加载启动)
客户端mongo
  • 启动本地客户端:mongo
  • 查看帮助:mongo –help
  • 退出:exit或者ctrl+c
mongodb的官方文档:https://docs.mongodb.com/manual/introduction/

mongodb的权限管理:

mongodb是没有默认管理员账号,所以要先添加管理员账号,并且mongodb服务器需要在运行的时候开启验证模式

  • 用户只能在用户所在的数据库登录(创建用户的数据库),包括管理员账号
  • 管理员可以管理所有数据库,但是不能直接管理其他数据库,要先认证后才可以

mongodb超级管理员账号的创建

  1. 以权限认证的方式启动mongodb数据库

    sudo mongod -auth
    

    启动之后再启动信息中会有如下信息,说明mongodb以权限认证的方式启动成功

    [initandlisten] options: { security: { authorization: "enabled" } }
    
  2. 创建超级用户 使用admin数据库(超级管理员账号必须创建在该数据库上)

    use admin
    

    创建超级用户

    db.createUser({"user":"用户名","pwd":"密码","roles":["root"]})  # roles 权限
    

    创建成功会显示如下信息

    Successfully added user: { "user" : "python", "roles" : [ "root" ] }
    
  3. 退出客户端再次登录验证,此时在使用数据库各命令的时候会报权限错误,需要认证才能执行相应操作

    use admin
    db.auth('python','python')
    1
    

    python用户是创建在admin数据库上的所以必须来到admin数据库上进行认证,认证成功会返回1,失败返回0

创建普通用户:

  1. 选择需要创建用户的数据库

    use test1
    
  2. 在使用的数据库上创建普通用户

    db.createUser("user":"user1", "pwd":"pwd1", roles:["read"])
    创建普通用户user1,该用户在test1上的权限是只读
    db.createUser("user":"user1", "pwd":"pwd1", roles:["readWrite"])
    创建普通用户user1,该用户在test1上的权限是读写
    
  3. 在其它数据库上创建普通用户

    use admin
    db.createUser({"user":"python1", "pwd":"python1", 
    			  roles:[{"role":"read","db":"dbname1"},{"role":"readWrite","db":"dbname2"}]})
    # 在admin上创建python1用户,python1用户的权限有两个,一个再dbname1上的只读,另一个是在dbname2上的读写
    
查看创建的用户:
show users
删除用户
db.dropUser('用户名')

mongodb的基本使用

mongodb数据库的命令:
  • 查看当前的数据库:db(没有切换数据库的情况下默认使用test数据库)
  • 查看所有的数据库:show dbs / show databases
  • 切换数据库:use db_name
  • 删除当前的数据库:db.dropDatabase()
mongodb集合的命令:
  • 不手动创建集合:向不存在的集合中第一次加入数据时,集合就会被常见出来
  • 手动 创建集合:
    • db.createCollection(name,options)
    • db.createCollection("stu")
    • db.createCollection("sub", { capped : true, size : 10 } )
    • 参数capped: 默认值为false表示不设置上限,值为true表示设置上限
    • 参数size: 当capped值为true时, 需要指定此参数, 表示上限⼤⼩,当⽂档达到上限时, 会将之前的数据覆盖, 单位为字节
  • 查看集合:shoe collections
  • 删除集合:db.集合名称.drop()
  • 检查集合是否有上限:db.集合名.isCapped()
mongodb中常见的数据类型:
  • Object ID: ⽂档ID
  • String: 字符串, 最常⽤, 必须是有效的UTF-8
  • Boolean: 存储⼀个布尔值, true或false
  • Integer: 整数可以是32位或64位, 这取决于服务器
  • Double: 存储浮点值
  • Arrays: 数组或列表, 多个值存储到⼀个键
  • Object: ⽤于嵌⼊式的⽂档, 即⼀个值为⼀个⽂档
  • Null: 存储Null值
  • Timestamp: 时间戳, 表示从1970-1-1到现在的总秒数
  • Date: 存储当前⽇期或时间的UNIX时间格式
注意点:
  • 每个文档都有一个属性,为_id,保证每个文档的唯一性,mongodb默认使用_id为主键,可以自己去设置_id插入文档,如果没有提供,那么mongodb为每个文档提供了一个独特的_id,类型为object()
  • object()是一个12字节的十六进制数,每个字节两位,一共是24位的字符串:前4个字节为当前时间戳,接下来3个字节的机器ID,接下来2个字节的mongodb的服务进程ID,最后3个字节是简单的增量值

mongodb的增删改查

mongodb的插入:

db.集合名称.insert(document)

  db.stu.insert({name:'gj',gender:1})
  db.stu.insert({_id:"20170101",name:'gj',gender:1})

插⼊⽂档时, 如果不指定_id参数, MongoDB会为⽂档分配⼀个唯⼀的ObjectId

mongodb的保存:

命令:db.集合名称.save(document)如果文档的_id已经存在修改,如果⽂档的_id不存在则添加

mongodb的简单查询:

命令:db.集合名称.find()

mongodb的更新:

命令:db.集合名称.update(<query> ,<update>,{multi: <boolean>})

  • 参数query:查询条件
  • 参数update:更新操作符
  • 参数multi:可选, 默认是false,表示只更新找到的第⼀条记录, 值为true表示把满⾜条件的⽂档全部更新
db.stu.update({name:'hr'},{name:'mnc'})           全文档进行覆盖更新
db.stu.update({name:'hr'},{$set:{name:'hys'}})    指定键值更新操作
db.stu.update({},{$set:{gender:0}},{multi:true})   更新全部

注意:"multi update only works with $ operators"

mongodb的删除:

命令:db.集合名称.remove(<query>,{justOne: <boolean>})

  • 参数query:可选,删除的⽂档的条件
  • 参数justOne:可选, 如果设为true或1, 则只删除⼀条, 默认false, 表示删除多条

mongodb的高级查询

数据查询:
  • 方法find():查询

    db.集合名称.find({条件文档})

  • 方法findOne():查询,值返回第一个

    db.集合名称.findOne({条件文档})

  • 方法pretty():将结果格式化

    db.集合名称.find({条件文档}).pretty()

比较运算符:
  • 等于: 默认是等于判断, 没有运算符
  • ⼩于:$lt (less than)
  • ⼩于等于:$lte (less than equal)
  • ⼤于:$gt (greater than)
  • ⼤于等于:$gte
  • 不等于:$ne
逻辑运算符:
  • and:在json中写多个条件即可
  • or:使用$or,值为数组、数组中每个元素为json
范围运算符:

使用$in$nin判断数据是否在某个数组内

正则表达式:

使用//$regex编写正则表达式

自定义查询:

由于mongo的shell是一个js的额执行环境,使用$where后写一个函数,则返回满足条件的数据

db.stu.find({
    $where:function() {
        return this.age>30;}
})
skip和limit
  • ⽅法limit(): ⽤于读取指定数量的⽂档

      db.集合名称.find().limit(NUMBER)
      查询2条学⽣信息
      db.stu.find().limit(2)
    
  • ⽅法skip(): ⽤于跳过指定数量的⽂档

      db.集合名称.find().skip(NUMBER)
      db.stu.find().skip(2)
    
  • 同时使用

      db.stu.find().limit(4).skip(5)
      或
      db.stu.find().skip(5).limit(4)
    
注意:先使用skip在使用limit的效率要高于前者
投影:

在查询到的返回结果中,只选择必要的字段,

命令db.集合名称.find({},{字段名称:1, ...})

参数为字段与值,值为1 表示显示,值为0不显示。

对于_id列默认是显示的,如果不显示需要明确设置为0

排序:

方法sort()用于对集合进行排序

命令:db.find().sort({字段:1, ...})

参数1为升序,参数-1位降序

统计个数:

方法count()用于统计结果中文档条数

命令:db.集合名称.find({条件}).count();命令:db.集合名称.count({条件})

去重:

方法distinct()对数据去重

命令:db.集合名称.distinct('去重字段', {条件})

mongodb的聚合操作

聚合是基于数据处理的聚合管道,每个文档通过一个由多个阶段(stage)组成的管道,可以对每个阶段的管道进行分组、过滤等功能,然后经过一些列的处理,输出相应的结果

语法:db.集合名称.aggregate({管道:{表达式}})

常用的管道命令:

在mongodb中,⽂档处理完毕后, 通过管道进⾏下⼀次处理 常用管道命令如下:

  • %group:将集合中的文档进行分组,可用于统计结果
  • $match:过滤数据,只输出符合条件的文档
  • $project:修改输入文档的结构,如重命名、增加、删除字段、创建计算结果
  • $sort:将输入文档排序后输出
  • $limit:限制聚合管道返回的文档数
  • $skip:跳过指定数量的文档,并返回余下的文档
常用表达式:

表达式:处理输入文档并输出。语法:表达式:'$列名',常用的表达式:

  • $sum:计算总和,$sum:1 表示以⼀倍计数

  • $avg: 计算平均值

  • $min: 获取最⼩值

  • $max: 获取最⼤值

  • $push: 在结果⽂档中插⼊值到⼀个数组中

$group管道命令

$group是所有聚合命令中用的最多的一个命令,用来将集合中的文档分组,可用于统计结果

使用示例如下

db.stu.aggregate(
    {$group:
        {
            _id:"$gender",
            counter:{$sum:1}
        }
    }
)

其中注意点:

  • db.db_name.aggregate是语法,所有的管道命令都需要写在其中
  • _id 表示分组的依据,按照哪个字段进行分组,需要使用$gender表示选择这个字段进行分组
  • $sum:1 表示把每条数据作为1进行统计,统计的是该分组下面数据的条数

group by null

当我们需要统计整个文档的时候,$group 的另一种用途就是把整个文档分为一组进行统计

使用实例如下:

db.stu.aggregate(
    {$group:
        {
            _id:null,
            counter:{$sum:1}
        }
    }
)

其中注意点:

  • _id:null 表示不指定分组的字段,即统计整个文档,此时获取的counter表示整个文档的个数

数据透视

正常情况在统计的不同性别的数据的时候,需要知道所有的name,需要逐条观察,如果通过某种方式把所有的name放到一起,那么此时就可以理解为数据透视

$project管道命令

$project用于修改文档的输入输出结构,例如重命名,增加,删除字段

$sort管道命令

$sort用于将输入的文档排序后输出

$skip$limit管道命令

  • $limit限制返回数据的条数
  • $skip 跳过指定的文档数,并返回剩下的文档数
  • 同时使用时先使用skip在使用limit

mongodb索引

作用:
  • 加快了查询速度
  • 进行数据去重
mongodb创建简单索引的方法
  • 语法
    • db.集合.ensureIndex({属性:1})1表示升序,-1表示降序
    • db.集合.createINdex({属性:1})
    • 上面两个命令效果等价
  • 具体操作:db.db_name.ensureIndex({name:1})
  • 查看:默认情况下_id是集合的索引
    • 查看方式:db.collection_name.getIndexes()
mongodb创建唯一索引(unique

在默认的 情况下mongodb的索引域的值是可以相同的,创建唯一索引之后,数据库会在插入数据的时候检查创建索引域的值是否存在,如果存在则不会插入该条数据,但是创建索引仅仅能够提高查询速度,同时降低数据库的插入速度

添加唯一索引的语法:

db.collection_name.ensureIndex({"name":1},{"unique":true})
删除索引
  • 语法:db.dropIndex({'索引名称':1})
建立复合索引

在进行数据去重的时候,可能用一个域来保证数据的唯一性,这个时候可以建立复合索引

  • 建立复合索引的语法:db.collection_name.ensureIndex({字段1:1,字段2:1})
建立索引注意点
  • 根据需要选择是否需要建立唯一索引
  • 索引字段是升序还是降序在单个索引的情况下不影响查询效率,但是带复合索引的条件下会有影响
  • 数据量巨大并且数据库的读出操作非常频繁的时候才需要创建索引,如果写入操作非常频繁,创建索引会影响写入速度

mongodb的备份恢复与导入导出

备份:保证数据库的安全,主要用于灾难处理

语法:mongodump -h dbhost -d dbname -o dbdirectory

  • -h:服务器地址,也可以指定端口号
  • -d:需要备份的数据库名称
  • -o:备份的数据存放位置,此目录中存放着备份出来的数据
恢复:

语法:mongorestore -h dbhost -d dbname --dir dbdirectory

  • -h: 服务器地址
  • -d: 需要恢复的数据库实例
  • --dir: 备份数据所在位置
导出:

用于和其他平台进行交互对接,将数据导出成指定格式文件进行使用

导出语法:mongoexport -h dbhost -d dbname -c colname -o filename --type json/csv -f field

  • -h: 服务器地址
  • -d: 数据库名
  • -c: 集合名
  • -o: 导出文件名
  • --type: 文件类型,默认json格式,可选数据类型json,csv
  • -f: 需要导出的字段,导出为json格式的数据时可以不指定导出哪些字段,默认全部,导出成csv文件是必须指定
导入:

导入语法: mongoimport -d dbname -c colname --file filename [--headerline --type json/csv -f field]

  • -h: 服务器地址
  • -d: 数据库名
  • -c: 集合名
  • -o: 导出文件名
  • --type: 文件类型,默认json格式,可选数据类型json,csv
  • -f: 需要导出的字段,导出为json格式的数据时可以不指定导出哪些字段,默认全部,导出成csv文件是必须指定

mongodb与python的交互

pymongo安装:

pip install pymongo

使用:

导入pymongo并选择要操作的集合,数据库和集合会自动创建
from pymongo import MongoClient
client = MongoClient(host,port)
collection = client[db名][集合名]
添加数据:insert可以批量的插入数据,也可以插入一条数据
collection.insert([{"name":"test10010","age":33},{"name":"test10011","age":34}]/{"name":"test10010","age":33})
添加一条数据
ret = collection.insert_one({"name":"test10010","age":33})
print(ret)
添加多条数据
item_list = [{"name":"test1000{}".format(i)} for i in range(10)]
# insert_many接收一个列表,列表中为所有需要插入的字典
t = collection.insert_many(item_list)
查找一条数据
# find_one查找并且返回一个结果,接收一个字典形式的条件
t = collection.find_one({"name":"test10005"})
print(t)
查找全部数据

结果是一个Cursor游标对象,是一个可迭代对象,可以类似读文件的指针,但是只能够进行一次读取

# find返回所有满足条件的结果,如果条件为空,则返回数据库的所有
t = collection.find({"name":"test10005"})
# 结果是一个Cursor游标对象,是一个可迭代对象,可以类似读文件的指针,
for i in t:
    print(i)
for i in t: #此时t中没有内容
    print(i)
更新一条数据(全文档覆盖更新一条或多条)
# update_one更新一条数据
collection.update({"name":"test10005"},{"name":"new_test10005"},multi=True/False)
更新一条数据(指定键值更新一条或多条)

注意使用$set命令

# update_one更新一条数据
collection.update({"name":"test10005"},{"$set":{"name":"new_test10005"}},multi=True/False)
更新一条数据

注意使用$set命令

# update_one更新一条数据
collection.update_one({"name":"test10005"},{"$set":{"name":"new_test10005"}})
更行全部数据
# update_many更新全部数据
collection.update_many({"name":"test10005"},{"$set":{"name":"new_test10005"}})
插入更新数据
# update更新一条数据
collection.update({"name":"test10005"},{"$set":{"name":"new_test10005"}},upsert=True)

先查询数据库中是否含有{"name":"test10005"}的数据,如果存在则{"name":"new_test10005"}进行修改,如果不存在则将{"name":"new_test10005"}插入到数据库

删除一条数据
# delete_one删除一条数据
collection.delete_one({"name":"test10010"})
删除全部数据
# delete_many删除所有满足条件的数据
collection.delete_many({"name":"test10010"})

pymongo模块

from pymongo import MongoClient
# client = MongoClient(host=, port=)
uri = 'mongodb://账号:密码@127.0.0.1'
client = MongoClient(uri, port=27017) # 连接对象
# col = client['数据库名']['集合名']'
col = client.数据库名.集合名

col.insert({一条文档}/[{}, {}, ...])
col.find_one({条件})
rets = col.find({条件}) # 返回的是只能遍历一次的cursor游标对象
col.delete_one({条件})
col.delete_many({条件})
col.update({条件},
		   {'$set':{指定更新的kv}},
		   multi=False/True, # 默认False表示只更新一条
		   upsert=False/True) # 默认False,True表示没有就插入,存在就更新
posted @ 2021-03-07 22:36  shangkh  阅读(13)  评论(0)    收藏  举报