2014年2月24日

hashmap or array

摘要: Maintaining order:- A list by definition is ordered. You add items and then you are able to iterate back through the list in the order that you insert... 阅读全文

posted @ 2014-02-24 09:34 brave_bo 阅读(202) 评论(0) 推荐(0)

bit map

摘要: 、bit-map 适用范围:可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下 基本原理及要点:使用bit数组来表示某些元素是否存在,比如8位电话号码 扩展:bloom filter可以看做是对bit-map的扩展 问题实例: 1)已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数。 8位最多99 999 999,大概需要99m个bit,大概10几m字节的内存即可。 2)2.5亿个整数中找出不重复的整数的个数,内存空间不足以容纳这2.5亿个整数。 将bit-map扩展一下,用2bit表示一个数即可,0表示未出现,1表示出现一次,2表示出现... 阅读全文

posted @ 2014-02-24 09:00 brave_bo 阅读(377) 评论(0) 推荐(0)

大数据问题

摘要: 第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。或者如下阐述(雪域之鹰):算法思想:分而治之+Hash1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2. 阅读全文

posted @ 2014-02-24 08:57 brave_bo 阅读(230) 评论(0) 推荐(0)

导航