随笔- 9
文章- 0
评论- 169
10 2010 档案
海量数据处理:找出现次数最多的那些(一点记录)
摘要: 海量数据处理:找出现次数最多的那些...默认分类2010-08-24 16:56:07阅读0评论0字号:大中小订阅回忆一下tx的二面,有一道题是这样的:假设有1kw个身份证号,以及他们对应的数据。身份证号可能重复,要求找出出现次数最多的身份证号。一个很显然的做法是,hash之,O(n)搞定。这前提是内存中可以存下。如果是中国的13亿人口,内存中存不下呢?借用磁盘,多次扫描?磁盘IO的速度慢得能让你...阅读全文

