随笔分类 - 海量数据处理
摘要:参考:http://blog.csdn.net/caianye/article/details/7576198 如今几乎每个人都听说过Linux中所谓的"零拷贝"特性,然而我经常碰到没有充分理解这个问题的人们。因此,我决定写一些文章略微深入的讲述这个问题,希望能将这个有用的特性解释清楚。在本文中,将
阅读全文
摘要:http://www.cnblogs.com/LBSer/p/3310455.html http://blog.csdn.net/shixiaoguo90/article/details/25313717 MongoDB 中使用geohash 实现地理位置索引 引子 机机是个好动又好学的孩子,平日里
阅读全文
摘要:Bloom Filter(布隆过滤器) 布隆过滤器用于测试某一元素是否存在于给定的集合中,是一种空间利用率很高的随机数据结构(probabilistic data structure),存在一定的误识别率(false positive),即布隆过滤器报告某一元素存在于某集合中,但是实际上该元素并不在
阅读全文
摘要:分两种情况, 1) 如果数据能够在内存中放下,比如如果海量数据是ip地址,最多有4G个ip地址,每个ip地址占4个字节 需要内存16G,如果内存在几十G,则完全可以全部装入内存,直接读取大文件,然后创建一个hash表,统计次数,最后再用堆统计最大的n个 2) 如果不能在内存放下,比如海量数据是字符串
阅读全文
摘要:一般解题思路: 1、将数据导入到内存中 2、将数据进行排序 (比如插入排序、快速排序) 3、将排序好的数据存入文件特殊: 1、导入数据库运算 2、分段排序运算 3、传说中bitmap,使用bit位运算 (最快,N/8),例如:比如读到一个数据为341245909这个数据,那就先在内存中找到34124
阅读全文
摘要:1、能不能通过增加机群(应用机群,服务机群)的方式去解决?好比一台机器能抗200qps, 然后你就40000qps的业务,那你最少需要200台机器,如果考虑到有机器down掉的情况,还要加备用服务器,这个具体加多少台就得去评估了。 防止出现有机器down掉,还得在每台机器上更新列表的情况,我们最好访
阅读全文

浙公网安备 33010602011771号