geniushuai
随笔- 9  文章- 0  评论- 169 
博客园  首页  新随笔  联系  管理  订阅 订阅
10 2010 档案
海量数据处理:找出现次数最多的那些(一点记录)

摘要: 海量数据处理:找出现次数最多的那些...默认分类2010-08-24 16:56:07阅读0评论0字号:大中小订阅回忆一下tx的二面,有一道题是这样的:假设有1kw个身份证号,以及他们对应的数据。身份证号可能重复,要求找出出现次数最多的身份证号。一个很显然的做法是,hash之,O(n)搞定。这前提是内存中可以存下。如果是中国的13亿人口,内存中存不下呢?借用磁盘,多次扫描?磁盘IO的速度慢得能让你...阅读全文
posted @ 2010-10-22 18:22 geniushuai 阅读(182) | 评论 (0) 编辑

Copyright ©2012 geniushuai