mongodb 删除重复数据
注:mongodb当前版本是3.4.3
插入六条数据:

查询存在重复的数据:

查询并循环删除重复数据:

删除语句解析:
db.userInfo.aggregate([
{
$group: { _id: {userName: '$userName',age: '$age'},count: {$sum: 1},dups: {$addToSet: '$_id'}}
},
{
$match: {count: {$gt: 1}}
}
]).forEach(function(doc){
doc.dups.shift();
db.userInfo.remove({_id: {$in: doc.dups}});
})
- 根据 userName 和 age 分组并统计数量,$group 只会返回参与分组的字段,使用 $addToSet 在返回结果数组中增加 _id 字段
- 使用 $match 匹配数量大于 1 的数据
- doc.dups.shift(); 表示从数组第一个值开始删除;作用是踢除重复数据其中一个 _id ,让后面的删除语句不会删除所有数据
- 使用 forEach 循环根据 _id 删除数据
$addToSet 操作符只有在值没有存在于数组中时才会向数组中添加一个值。如果值已经存在于数组中,$addToSet 返回,不会修改数组。
注意: forEach 和 $addToSet 的驼峰写法不能全部写成小写,因为 mongodb 严格区分大小写、mongodb 严格区分大小写、mongodb 严格区分大小写,重要的事情说三遍!
可能出现的问题:
数据过大会报内存错误:Exceeded memory limit for $group, but didn’t allow external sort. Pass allowDiskUse:true to opt in
可以在后面添加上这个属性就不会了:allowDiskUse: true
db.userInfo.aggregate([ {
$group: { _id: {userName: '$userName',age: '$age'},count: {$sum: 1},dups: {$addToSet: '$_id'}}
},
{
$match: {count: {$gt: 1}}
}
],{
allowDiskUse: true
}).forEach(function(doc){
doc.dups.shift();
db.userInfo.remove({_id: {$in: doc.dups}});
})
via:https://www.cnblogs.com/nicolegxt/p/24b3653947991ebe73e5d70609ab2943.html

浙公网安备 33010602011771号