yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 173 174 175 176 177 178 179 180 181 ··· 367 下一页

2016年4月30日 #

摘要: 海量数据处理 算法总结 前面我们说海量数据处理提到,从算法的角度去考虑处理海量数据。 1. Bloom Filter 【Bloom Filter】Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否 阅读全文
posted @ 2016-04-30 12:31 xxxxxxxx1x2xxxxxxx 阅读(191) 评论(0) 推荐(0)

摘要: Trie树:应用于统计和排序 Trie树:应用于统计和排序 1. 什么是trie树 1.Trie树 (特例结构树) Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统 阅读全文
posted @ 2016-04-30 12:28 xxxxxxxx1x2xxxxxxx 阅读(135) 评论(0) 推荐(0)

摘要: 海量数据处理算法—Bit-Map 1. Bit Map算法简介 来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 2、 Bit Map的基本思想 我们先来看一个具体的例 阅读全文
posted @ 2016-04-30 12:28 xxxxxxxx1x2xxxxxxx 阅读(197) 评论(0) 推荐(0)

摘要: 使用Storm实现实时大数据分析 使用Storm实现实时大数据分析 摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN 阅读全文
posted @ 2016-04-30 12:27 xxxxxxxx1x2xxxxxxx 阅读(223) 评论(0) 推荐(0)

摘要: 用Redis bitmap统计活跃用户、留存 用Redis bitmap统计活跃用户、留存 Spool的开发者博客,描述了Spool利用Redis的bitmaps相关的操作,进行网站活跃用户统计工作。 原文:http://blog.getspool.com/2011/11/29/fast-easy- 阅读全文
posted @ 2016-04-30 12:27 xxxxxxxx1x2xxxxxxx 阅读(475) 评论(0) 推荐(0)

摘要: 大数据计算:如何仅用1.5KB内存为十亿对象计数 Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5K This is a guest post by Matt Abrams (@abramsm), fr 阅读全文
posted @ 2016-04-30 12:27 xxxxxxxx1x2xxxxxxx 阅读(193) 评论(0) 推荐(0)

摘要: 6个用于大数据分析的最好工具 大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军 阅读全文
posted @ 2016-04-30 12:26 xxxxxxxx1x2xxxxxxx 阅读(188) 评论(0) 推荐(0)

摘要: 谷歌三大核心技术(一)The Google File System中文版 The Google File System中文版 译者:alex 摘要 我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了 阅读全文
posted @ 2016-04-30 12:23 xxxxxxxx1x2xxxxxxx 阅读(393) 评论(0) 推荐(0)

摘要: 谷歌三大核心技术(三)Google BigTable中文版 谷歌三大核心技术(三)Google BigTable中文版 Bigtable:一个分布式的结构化数据存储系统 译者:alex 摘要 Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的 阅读全文
posted @ 2016-04-30 12:22 xxxxxxxx1x2xxxxxxx 阅读(538) 评论(0) 推荐(0)

摘要: 谷歌三大核心技术(二)Google MapReduce中文版 Google MapReduce中文版 译者: alex 摘要 MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基 阅读全文
posted @ 2016-04-30 12:22 xxxxxxxx1x2xxxxxxx 阅读(491) 评论(0) 推荐(0)

上一页 1 ··· 173 174 175 176 177 178 179 180 181 ··· 367 下一页