上千万或亿条数据量，如何统计出重复记录最多的前N条

上千万或亿条数据量，如何统计出重复记录最多的前N条：

对于这个问题，我个人觉得可以通过统计的方法来完成：去重+统计，具体的做法是：

（1）初始化一个空的集合A（具体的就不去说了，建议用hashtable）。

（2）顺序读入这些数据，如果当前读入的数据不在该集合A中，则将其插入到A中，并将其出现次数标记为0。如果在当前的集合中出现了，则将其当前的出现次数++。

（3）再从统计好的集合中找出重复记录最多的前N条。

posted on 2011-05-26 22:39 xuq 阅读(1179) 评论(0) 收藏举报

刷新页面返回顶部

Life is short