C# 大数据量List＜T＞去重复方法效率比较

大数据量List<T>中的数据根据多个属性进行去重有多种方法，在数据量达到10万以上时，各种方法效率有明显的区别，这里只列举两种方式：这里以类Model为例创建List<Model>

 public class Model
    {
        public string Id { get; set; }
        public string Name { get; set; }
        public int Style { get; set; } 
    }

创建比较类（实现IEqualityComparer接口）,重写Equals方法

public class ModelComparer : IEqualityComparer<Model>
 {
     public bool Equals(Model x, Model y)
     {
         if (x.Id == y.Id && x.Name == y.Name)       
             return true;         
         else           
             return false;           
     }
 
     public int GetHashCode(Model obj)
     {
         return 0;
     }
 }

使用时直接使用Distinct方法：

var lstTemp = lstOrigin.Distinct(new ModelComparer());

但是这种方式去重效率非常慢，20万条数据能达到15-20分钟，如果数据量较大又对效率有要求，那么可以尝试下面一种方法：

改进办法

public class CommonEqualityComparer<T, V> : IEqualityComparer<T>
    {
        private Func<T, V> keySelector;

        public CommonEqualityComparer(Func<T, V> keySelector)
        {
            this.keySelector = keySelector;
        }

        public bool Equals(T x, T y)
        {
            return EqualityComparer<V>.Default.Equals(keySelector(x), keySelector(y));
        }

        public int GetHashCode(T obj)
        {
            return EqualityComparer<V>.Default.GetHashCode(keySelector(obj));
        }
    }

    public static class DistinctExtensions
    {
        public static IEnumerable<T> Distinct<T, V>(this IEnumerable<T> source, Func<T, V> keySelector)
        {
            return source.Distinct(new CommonEqualityComparer<T, V>(keySelector));
        }
    }

使用时:

var lstTemp = lstOrigin.Distinct(p => (p.Id + p.Name)).ToList();

这种方法能将效率从15~20分钟提高到5秒以内，虽然这种将两个字段字符串相加作为比较参数的比较方法有些局限，但是相比于前一种方式方式可以极大地提高效率。另也测试过在新建List后，在循环添加数据时通过list.Contains()的方法和通过Linq的方法去重效率都比较低，都与第一种方法时间相近，网上相关文章比较多这里就不列举了。

posted @ 2021-10-20 18:21 netlock 阅读(231) 评论(0) 收藏举报

刷新页面返回顶部

netlock

代码的搬运工

C# 大数据量List＜T＞去重复方法效率比较

公告