上一页 1 2 3 4 5 6 7 ··· 9 下一页
摘要: 第四部分所有的模式涉及一个共同点: 不会改变原有的记录。 这些模式都是寻找数据子集的,不管结果集的规模是小(top10)还是大(像去重结果)。 与第三部分差异是,他们通过对数据的相思子端坐概要与分组来得到数据的高层次视图的。 而过滤更关注理解较小的数据。 简单随机抽样 :是过滤的一个常见应用,比如提取某字段最高记录,或者随机抽取几条。 抽样可以用来得到 更小的,更具有代表性的数据子... 阅读全文
posted @ 2016-04-07 16:46 rocky_24 阅读(816) 评论(0) 推荐(0) 编辑
摘要: 二 倒排索引 倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两种不同的反向索引形式:一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中... 阅读全文
posted @ 2016-04-05 17:44 rocky_24 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 一 数值概要 模式描述: 数值概要模式是计算机数据聚合统计值的一般性模式。 对于合理使用 combiner 以及理解正在做的计算来讲,数值概要模式是极为重要的。 目的 基于某个键将记录分组,并对每个分组计算一系列的聚合值,从而得到较大数据集的高层次视图。 适用场景 要处理的数据是数值数据或者计数 数据可以按照特定的字段... 阅读全文
posted @ 2016-04-05 09:21 rocky_24 阅读(685) 评论(0) 推荐(0) 编辑
摘要: MapReduce 不仅仅是一个工具,更是一个框架。我们必须拿问题解决方案去适配框架的 map 和 reduce 过程 很多情况下,需要关注 MapReduce 作业所需要的系统资源,尤其是集群内部网络资源的使用情况。这是MapReduce 框架在设计上的取舍,是在需要考虑并发、容错、扩展性以及其他 阅读全文
posted @ 2016-03-31 16:43 rocky_24 阅读(377) 评论(0) 推荐(0) 编辑
摘要: HDFS 的备份功能不是给 基于 HBase 等 基于HDFS 的项目做备份的。 如果 HBase 需要备份,那么久需要设置 备份(快照 )功能。 HMaster 、 kafka 等无主结构并不是自我实现的选举, 而是基于 ZooKeeper 的选举策略决策出新的 master HBase 创建表的 Region 极大的影响插入等性能 HFile写入的时候,是分一个块一个块的写入的,每个B... 阅读全文
posted @ 2016-03-30 15:50 rocky_24 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 下面介绍Hbase的缓存机制: a.HBase在读取时,会以Block为单位进行cache,用来提升读的性能 b.Block可以分类为DataBlock(默认大小64K,存储KV)、BloomBlock(默认大小128K,存储BloomFilter数据)、IndexBlock(默认大小128K,索引数据,用来加快Rowkey所在DataBlock的定位) c.对于一次随机读,Block... 阅读全文
posted @ 2016-03-30 15:46 rocky_24 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 这一章讲hbase的缓存机制,这里面涉及的内容也是比较多,呵呵,我理解中的缓存是保存在内存中的特定的便于检索的数据结构就是缓存。之前在讲put的时候,put是被添加到Store里面,这个Store是个接口,实现是在HStore里面,MemStore其实是它底下的小子。那它和Region Server、Region是什么关系?Region Server下面有若干个Region,每个Region下面有... 阅读全文
posted @ 2016-03-30 15:39 rocky_24 阅读(473) 评论(0) 推荐(0) 编辑
摘要: HBase 系统架构图 组成部件说明 Client: 使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与HRegionServer进行数据读写类操作 Zookeeper: Zookeeper Quorum存储-ROOT-表地址、HMaster地址 HRegionServ... 阅读全文
posted @ 2016-03-30 15:18 rocky_24 阅读(238) 评论(0) 推荐(0) 编辑
摘要: zookeeper压力测试:性能对比(3个节点,5个节点,7个节点 创建节点、删除节点、设置节点数据、读取节点数据性能及并发性能) 测试结果如下: <!--more--> 五次测试三节点结果: 创建100W节点用时:15.0秒。 66'666/s 删除100W节点用时:13.8秒。 72'500/s 阅读全文
posted @ 2016-03-30 15:17 rocky_24 阅读(11720) 评论(0) 推荐(1) 编辑
摘要: hbase源码系列(十一)Put、Delete在服务端是如何处理? <!--more--> 在讲完之后HFile和HLog之后,今天我想分享是Put在Region Server经历些了什么?相信前面看了《HTable探秘》的朋友都会有印象,没看过的建议回去先看看,Put是通过MultiServerC 阅读全文
posted @ 2016-03-30 14:54 rocky_24 阅读(394) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页
希望祖国繁荣,富强! God has given me a gift. Only one. I am the most complete fighter in the world. My whole life, I have trained. I must prove I am worthy of someting. rocky_24