海量数据处理 - 随笔分类 - 立超的专栏

linux独有的sendfile系统调用--“零拷贝，高效”

摘要：参考：http://blog.csdn.net/caianye/article/details/7576198 如今几乎每个人都听说过Linux中所谓的"零拷贝"特性，然而我经常碰到没有充分理解这个问题的人们。因此，我决定写一些文章略微深入的讲述这个问题，希望能将这个有用的特性解释清楚。在本文中，将阅读全文

posted @ 2017-02-17 21:25 立超的专栏阅读(4579) 评论(2) 推荐(1)

附近的人，附近的卖家（geohash+前缀树）

摘要：http://www.cnblogs.com/LBSer/p/3310455.html http://blog.csdn.net/shixiaoguo90/article/details/25313717 MongoDB 中使用geohash 实现地理位置索引引子机机是个好动又好学的孩子，平日里阅读全文

posted @ 2016-09-22 08:21 立超的专栏阅读(1490) 评论(0) 推荐(0)

海量信息库，查找是否存在（bloom filter布隆过滤器）

摘要：Bloom Filter（布隆过滤器）布隆过滤器用于测试某一元素是否存在于给定的集合中，是一种空间利用率很高的随机数据结构（probabilistic data structure），存在一定的误识别率（false positive），即布隆过滤器报告某一元素存在于某集合中，但是实际上该元素并不在阅读全文

posted @ 2016-09-22 08:15 立超的专栏阅读(689) 评论(0) 推荐(0)

海量数据统计出现次数

摘要：分两种情况， 1) 如果数据能够在内存中放下，比如如果海量数据是ip地址，最多有4G个ip地址，每个ip地址占4个字节需要内存16G，如果内存在几十G，则完全可以全部装入内存，直接读取大文件，然后创建一个hash表，统计次数，最后再用堆统计最大的n个 2) 如果不能在内存放下，比如海量数据是字符串阅读全文

posted @ 2016-08-10 15:55 立超的专栏阅读(1004) 评论(0) 推荐(0)

海量数据查找问题

摘要：一般解题思路: 1、将数据导入到内存中 2、将数据进行排序　（比如插入排序、快速排序） 3、将排序好的数据存入文件特殊： 1、导入数据库运算 2、分段排序运算 3、传说中bitmap，使用bit位运算（最快，N/8）,例如：比如读到一个数据为341245909这个数据，那就先在内存中找到34124 阅读全文

posted @ 2016-08-10 15:50 立超的专栏阅读(1099) 评论(0) 推荐(0)

建立高并发模型需要考虑的点

摘要：1、能不能通过增加机群（应用机群，服务机群）的方式去解决？好比一台机器能抗200qps，然后你就40000qps的业务，那你最少需要200台机器，如果考虑到有机器down掉的情况，还要加备用服务器，这个具体加多少台就得去评估了。防止出现有机器down掉，还得在每台机器上更新列表的情况，我们最好访阅读全文

posted @ 2016-08-10 15:37 立超的专栏阅读(2329) 评论(0) 推荐(1)

racheol

随笔分类 - 海量数据处理

公告