摘要:
我在前面的随笔里已经写过关于处理海量数据的哈希表和Trie的方法了,本文提到的是常用方法之一:Bitmap,测试数据是100万条随机数。Bitmap是用于处理有限位数的整数,理论上,对于1GB的内存,处理的整数范围大约在0-8,000,000,000内,即一般处理10亿以内,同时也是10位数以内的数据,可实现的操作有存储,排序,查找,删除,查重而朴素的方法处理10亿的整数需要40GB以上的内存空间,所以,在int用32位表示的机器上,理论内存空间使用比例为1:32,我在下面的代码里用到的测试数据是100万条1亿以内的随机数,完成增删查排序功能。欢迎有共同学习兴趣的同学加好友探讨学习哦~~^_^ 阅读全文
posted @ 2013-10-01 17:31
铁甲小宝
阅读(407)
评论(0)
推荐(0)
摘要:
目前我所了解的海量数据处理的方法包括:哈希,树,归并排序,bitmap等,之前发过测试哈希表的随笔,这一篇则是针对第二种方法:树。我写了一个Trie树的简单实现,以摘自某网站上的超过100万条的URL为测试数据,算是个小型的海量数据了,检索其中一条记录所消耗的时间为0毫秒,实际是在1毫秒之内,也就是很快的意思。清空这个树需要DFS或者BFS,我暂时没有实现它,也就是说,下面的代码,没有主动完成释放内存空间的功能。欢迎有共同学习兴趣的同学和我沟通哦 ^_^上代码: 1 #include 2 #include 3 #include 4 #include 5 /** 6 * @a... 阅读全文
posted @ 2013-10-01 16:07
铁甲小宝
阅读(291)
评论(0)
推荐(0)
浙公网安备 33010602011771号