2010年5月3日
摘要: 面试题中总是有好多海量数据的处理问题,在这里列出一些常见问题,便于以后查阅:1. 给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。 2. 有10个文件,每个文件1G, 每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。要你按照query的频度排序 3. 有一个1G大小的一个文件,里面每一行是一个词,词的大小... 阅读全文
posted @ 2010-05-03 11:12 冬日的细雨 阅读(1202) 评论(0) 推荐(0)