上千万或亿条数据量,如何统计出重复记录最多的前N条

上千万或亿条数据量,如何统计出重复记录最多的前N条:

对于这个问题,我个人觉得可以通过统计的方法来完成:去重+统计,具体的做法是:

(1)初始化一个空的集合A(具体的就不去说了,建议用hashtable)。

(2)顺序读入这些数据,如果当前读入的数据不在该集合A中,则将其插入到A中,并将其出现次数标记为0。如果在当前的集合中出现了,则将其当前的出现次数++。

(3)再从统计好的集合中找出重复记录最多的前N条。

posted on 2011-05-26 22:39  xuq  阅读(1177)  评论(0)    收藏  举报

导航