海量数据处理面试题(2) 将用户的query按出现频度排序

问题描述:

有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序。

分析:一般海量数据采用分治法时,都要用到哈希,将相似的数据聚集在一起。因此,本题的第一种解法就按照这个思路进行处理。

方案一:

图上说明的很清楚,就不再用文字描述了。像这种海量数据处理的题目,画图往往比语言描述更清晰易懂。

海量数据处理2

 

方案二:

如果query的种类较少,重复次数较多,当不同的query可以一次性加载到内存中时,可以选择HashMap进行统计,然后按出现次数做排序。

其实方案二就是方案一中的第二步,对hash之后的单个文件进行数量统计和内部排序。

 

 

参考资料:

海量数据处理面试题集锦

posted @ 2014-04-14 23:10  suzhou  阅读(560)  评论(0编辑  收藏  举报