2019秋招复习笔记--海量数据处理（整理中）

1、海量日志数据，提取出某日访问百度次数最多的那个IP。

算法思想：分而治之+Hash
1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；
2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)%1024值（hash映射），把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址；
3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址；
4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP；
需要注意的是，相同的IP经过Hash映射之后一定处于同一组中，故这种方法一定能统计到出现频率最大的那个IP。

2. 100G的硬盘上的整数型数据， 1G的内存。找出这100G数据里面所有不重复的数据。最少需要多大的辅助内存。

来源：腾讯面试

解法1：位图

int型的整数一共有2³²个，我们申请2³² bits, 也就是2³²位，用1位表示一个数是否出现了，0表示未出现，1表示出现了。比如4出现了，我们将这2³²位的第4位置为1。10000出现了则把第10000位置为1。这样2³² bits = 2³²/8 = 2²⁹B, 我们知道2¹⁰约等于1000， 2³⁰约等于10⁹。故2²⁹B = 2^-1 * 10⁹ B = 2^-1 * 1GB = 500MB

；

拓展

如果用两位表示数出现的次数就可以分别统计出现0次、出现1次、出现2次和出现多次的数字。00表示未出现，01表示出现1次，10表示出现两次，11表示两次以上。然后扫描100亿个数，查看位图中对应的位置，如果是00,01,10，则加1变成01,10,11；如果是11，则不变。最后再扫描一遍位图，输出01，10对应的数。 2^32 * 2 = 8Gbits = 1GB。
那么这样做的情况下怎样找到这个数呢？我举个例子，例如我们此时读入一个数是：64，64对应的所在bit位是：64*2=128，也就是说第 127 和 128 位共同
标示了它的出现状态。其他的以此类推。每当我们读出一个数，我们就这样去找到它对应的bit位，先读出bit位的值，再做记录，已经是01的，再次来到，那么
就应该修改为10。最后的我们这样得出结果：扫描整个位图，如果是10的，就下标/2得出这个数。

整理源:
https://blog.csdn.net/v_JULY_v/article/details/6279498
https://blog.csdn.net/IT_YUAN/article/details/8106573
https://blog.csdn.net/v_july_v/article/details/7382693

posted @ 2019-09-05 00:02 lllunaticer 阅读(295) 评论(0) 收藏举报

刷新页面返回顶部

龙龙爱阿喵！

古之成大事者,不惟有超世之才,亦必有坚忍不拔之志！

2019秋招复习笔记--海量数据处理（整理中）

1、海量日志数据，提取出某日访问百度次数最多的那个IP。

2. 100G的硬盘上的整数型数据， 1G的内存。找出这100G数据里面所有不重复的数据。最少需要多大的辅助内存。

公告