上千万或亿条数据量,如何统计出重复记录最多的前N条
上千万或亿条数据量,如何统计出重复记录最多的前N条:
对于这个问题,我个人觉得可以通过统计的方法来完成:去重+统计,具体的做法是:
(1)初始化一个空的集合A(具体的就不去说了,建议用hashtable)。
(2)顺序读入这些数据,如果当前读入的数据不在该集合A中,则将其插入到A中,并将其出现次数标记为0。如果在当前的集合中出现了,则将其当前的出现次数++。
(3)再从统计好的集合中找出重复记录最多的前N条。
为无为,事无事 / 天下难事,必作于易
上千万或亿条数据量,如何统计出重复记录最多的前N条:
对于这个问题,我个人觉得可以通过统计的方法来完成:去重+统计,具体的做法是:
(1)初始化一个空的集合A(具体的就不去说了,建议用hashtable)。
(2)顺序读入这些数据,如果当前读入的数据不在该集合A中,则将其插入到A中,并将其出现次数标记为0。如果在当前的集合中出现了,则将其当前的出现次数++。
(3)再从统计好的集合中找出重复记录最多的前N条。