yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 173 174 175 176 177 178 179 180 181 ··· 367 下一页

2016年4月30日 #

摘要: Trie树:应用于统计和排序 Trie树:应用于统计和排序 1. 什么是trie树 1.Trie树 (特例结构树) Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统 阅读全文
posted @ 2016-04-30 12:28 xxxxxxxx1x2xxxxxxx 阅读(136) 评论(0) 推荐(0)

摘要: 海量数据处理算法—Bit-Map 1. Bit Map算法简介 来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 2、 Bit Map的基本思想 我们先来看一个具体的例 阅读全文
posted @ 2016-04-30 12:28 xxxxxxxx1x2xxxxxxx 阅读(198) 评论(0) 推荐(0)

摘要: 使用Storm实现实时大数据分析 使用Storm实现实时大数据分析 摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN 阅读全文
posted @ 2016-04-30 12:27 xxxxxxxx1x2xxxxxxx 阅读(224) 评论(0) 推荐(0)

摘要: 用Redis bitmap统计活跃用户、留存 用Redis bitmap统计活跃用户、留存 Spool的开发者博客,描述了Spool利用Redis的bitmaps相关的操作,进行网站活跃用户统计工作。 原文:http://blog.getspool.com/2011/11/29/fast-easy- 阅读全文
posted @ 2016-04-30 12:27 xxxxxxxx1x2xxxxxxx 阅读(476) 评论(0) 推荐(0)

摘要: 大数据计算:如何仅用1.5KB内存为十亿对象计数 Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5K This is a guest post by Matt Abrams (@abramsm), fr 阅读全文
posted @ 2016-04-30 12:27 xxxxxxxx1x2xxxxxxx 阅读(193) 评论(0) 推荐(0)

摘要: 6个用于大数据分析的最好工具 大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军 阅读全文
posted @ 2016-04-30 12:26 xxxxxxxx1x2xxxxxxx 阅读(189) 评论(0) 推荐(0)

摘要: 谷歌三大核心技术(一)The Google File System中文版 The Google File System中文版 译者:alex 摘要 我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了 阅读全文
posted @ 2016-04-30 12:23 xxxxxxxx1x2xxxxxxx 阅读(395) 评论(0) 推荐(0)

摘要: 谷歌三大核心技术(二)Google MapReduce中文版 Google MapReduce中文版 译者: alex 摘要 MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基 阅读全文
posted @ 2016-04-30 12:22 xxxxxxxx1x2xxxxxxx 阅读(492) 评论(0) 推荐(0)

摘要: 谷歌三大核心技术(三)Google BigTable中文版 谷歌三大核心技术(三)Google BigTable中文版 Bigtable:一个分布式的结构化数据存储系统 译者:alex 摘要 Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的 阅读全文
posted @ 2016-04-30 12:22 xxxxxxxx1x2xxxxxxx 阅读(540) 评论(0) 推荐(0)

摘要: Hadoop Hive与Hbase整合+thrift 1. 简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapR 阅读全文
posted @ 2016-04-30 12:21 xxxxxxxx1x2xxxxxxx 阅读(291) 评论(0) 推荐(0)

上一页 1 ··· 173 174 175 176 177 178 179 180 181 ··· 367 下一页