hengdin

导航

 

MongoDB删除重复的数据,方法如下:

db.Passages.aggregate([
    {
        $group:{_id:{content:'$content',endTime:'$endTime',startTime:'$startTime'},count:{$sum:1},dups:
        {$addToSet:'$_id'}}
    },
    {
        $match:{count:{$gt:1}}
    }
    ]).forEach(function(it){
         it.dups.shift();
            db.Passages.remove({_id: {$in: it.dups}});
    });

下面来解析:

1、使用aggregate聚合查询重复数据

·$group中是查询条件,根据content、endTime、startTime字段来聚合相同的数据;

·$count用来统计重复出现的次数, $match来过滤没有重复的数据;

·$addToSet将聚合的数据id放入到dups数组中方便后面使用;

2、查询结果使用forEach进行迭代id来删除数据

·shift()作用是剔除队列中第一条id,避免删掉所有的数据;

PS:注意函数的大小写,mongoDB是严格区分大小写的!!!

报错:

Exceeded memory limit for $group, but didn't allow external sort. Pass allowDiskUse:true to opt in.

原因是聚合的结果必须要限制在16M以内操作,(mongodb支持的最大影响信息的大小),否则必须放在磁盘中做缓存( allowDiskUse=True )

修改为:

db.latest_news.aggregate(
    [
        {
            $group: {
                _id: { url: '$url', },
                count: { $sum: 1 },
                dups: { $addToSet: '$_id' }
            }
        },
        {
            $match: {
                count: { $gt: 1 }
            }
        }
    ],

    { allowDiskUse: true }
).forEach(function (it) {
    it.dups.shift();
    db.latest_news.remove({ _id: { $in: it.dups } });
}
);
posted on 2022-09-18 14:31  hengdin  阅读(490)  评论(0)    收藏  举报