2013 年 10月 1 日随笔档案 - 铁甲小宝

2013年10月1日

摘要：我在前面的随笔里已经写过关于处理海量数据的哈希表和Trie的方法了，本文提到的是常用方法之一：Bitmap，测试数据是100万条随机数。Bitmap是用于处理有限位数的整数，理论上，对于1GB的内存，处理的整数范围大约在0-8,000,000,000内，即一般处理10亿以内，同时也是10位数以内的数据，可实现的操作有存储，排序，查找，删除，查重而朴素的方法处理10亿的整数需要40GB以上的内存空间，所以，在int用32位表示的机器上，理论内存空间使用比例为1：32，我在下面的代码里用到的测试数据是100万条1亿以内的随机数，完成增删查排序功能。欢迎有共同学习兴趣的同学加好友探讨学习哦～～^_^ 阅读全文

posted @ 2013-10-01 17:31 铁甲小宝阅读(407) 评论(0) 推荐(0)

学习Trie树，处理“海量”数据

摘要：目前我所了解的海量数据处理的方法包括：哈希，树，归并排序，bitmap等，之前发过测试哈希表的随笔，这一篇则是针对第二种方法：树。我写了一个Trie树的简单实现，以摘自某网站上的超过100万条的URL为测试数据，算是个小型的海量数据了，检索其中一条记录所消耗的时间为0毫秒，实际是在1毫秒之内，也就是很快的意思。清空这个树需要DFS或者BFS，我暂时没有实现它，也就是说，下面的代码，没有主动完成释放内存空间的功能。欢迎有共同学习兴趣的同学和我沟通哦 ^_^上代码： 1 #include 2 #include 3 #include 4 #include 5 /** 6 * @a... 阅读全文

posted @ 2013-10-01 16:07 铁甲小宝阅读(291) 评论(0) 推荐(0)