随笔档案「2016年3月」 - rocky_24

一梳理从 HDFS 到 MR。

摘要：MapReduce 不仅仅是一个工具，更是一个框架。我们必须拿问题解决方案去适配框架的 map 和 reduce 过程很多情况下，需要关注 MapReduce 作业所需要的系统资源，尤其是集群内部网络资源的使用情况。这是MapReduce 框架在设计上的取舍，是在需要考虑并发、容错、扩展性以及其他阅读全文

posted @ 2016-03-31 16:43 rocky_24 阅读(405) 评论(0) 推荐(0)

个人学习源码的 HBase误区的总结与架构图

摘要：HDFS 的备份功能不是给基于 HBase 等基于HDFS 的项目做备份的。如果 HBase 需要备份，那么久需要设置备份（快照）功能。 HMaster 、 kafka 等无主结构并不是自我实现的选举，而是基于 ZooKeeper 的选举策略决策出新的 master HBase 创建表的 Region 极大的影响插入等性能 HFile写入的时候，是分一个块一个块的写入的，每个B... 阅读全文

posted @ 2016-03-30 15:50 rocky_24 阅读(520) 评论(0) 推荐(0)

15 hbase 学习（十五）缓存机制以及可以利用SSD作为存储的BucketCache

摘要：下面介绍Hbase的缓存机制： a.HBase在读取时，会以Block为单位进行cache，用来提升读的性能 b.Block可以分类为DataBlock(默认大小64K,存储KV)、BloomBlock(默认大小128K,存储BloomFilter数据)、IndexBlock(默认大小128K,索引数据，用来加快Rowkey所在DataBlock的定位) c.对于一次随机读，Block... 阅读全文

posted @ 2016-03-30 15:46 rocky_24 阅读(452) 评论(0) 推荐(0)

13 hbase源码系列（十三）缓存机制MemStore与Block Cache

摘要：这一章讲hbase的缓存机制，这里面涉及的内容也是比较多，呵呵，我理解中的缓存是保存在内存中的特定的便于检索的数据结构就是缓存。之前在讲put的时候，put是被添加到Store里面，这个Store是个接口，实现是在HStore里面，MemStore其实是它底下的小子。那它和Region Server、Region是什么关系？Region Server下面有若干个Region，每个Region下面有... 阅读全文

posted @ 2016-03-30 15:39 rocky_24 阅读(509) 评论(0) 推荐(0)

HBase 系统架构

摘要：HBase 系统架构图组成部件说明 Client：使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与HRegionServer进行数据读写类操作 Zookeeper： Zookeeper Quorum存储-ROOT-表地址、HMaster地址 HRegionServ... 阅读全文

posted @ 2016-03-30 15:18 rocky_24 阅读(252) 评论(0) 推荐(0)

zookeeper 性能测试

摘要：zookeeper压力测试：性能对比（3个节点，5个节点，7个节点创建节点、删除节点、设置节点数据、读取节点数据性能及并发性能）测试结果如下：  五次测试三节点结果：创建100W节点用时：15.0秒。 66'666/s 删除100W节点用时：13.8秒。 72'500/s 阅读全文

posted @ 2016-03-30 15:17 rocky_24 阅读(12084) 评论(0) 推荐(1)

11 hbase源码系列（十一）Put、Delete在服务端是如何处理

摘要：hbase源码系列（十一）Put、Delete在服务端是如何处理？  在讲完之后HFile和HLog之后，今天我想分享是Put在Region Server经历些了什么？相信前面看了《HTable探秘》的朋友都会有印象，没看过的建议回去先看看，Put是通过MultiServerC 阅读全文

posted @ 2016-03-30 14:54 rocky_24 阅读(421) 评论(0) 推荐(0)

hbase源码系列（十二）Get、Scan在服务端是如何处理

摘要：hbase源码系列（十二）Get、Scan在服务端是如何处理？ 继上一篇讲了Put和Delete之后，这一篇我们讲Get和Scan, 因为我发现这两个操作几乎是一样的过程，就像之前的Put和Delete一样，上一篇我本来只打算写Put的，结果发现Delete也可以走这个过程，所阅读全文

posted @ 2016-03-30 14:54 rocky_24 阅读(751) 评论(0) 推荐(0)

9 hbase源码系列（九）StoreFile存储格式

摘要：hbase源码系列（九）StoreFile存储格式  从这一章开始要讲Region Server这块的了，但是在讲Region Server这块之前得讲一下StoreFile，否则后面的不好讲下去，这块是基础，Region Sever上面的操作，大部分都是基于它来进行的。 HF 阅读全文

posted @ 2016-03-30 14:53 rocky_24 阅读(497) 评论(0) 推荐(0)

10 hbase源码系列（十）HLog与日志恢复

摘要：hbase源码系列（十）HLog与日志恢复 HLog概述 hbase在写入数据之前会先写入MemStore，成功了再写入HLog，当MemStore的数据丢失的时候，还可以用HLog的数据来进行恢复，下面先看看HLog的图。旧版的HLog是实际上是一个SequceneFile 阅读全文

posted @ 2016-03-30 14:53 rocky_24 阅读(957) 评论(0) 推荐(0)

统计 MapReduce 输出路径修改。

摘要：先在上一篇MR 的104 行加入代码。jobConf.setOutputFormat(MyMultipleFilesTextOutputFormat.class); 用意是自定义 job 的输出格式：上一篇 MR 代码： http://www.cnblogs.com/rocky24/p/f7a27b79fa8e5dfdc22fb535cadb86bc.html 1 继... 阅读全文

posted @ 2016-03-09 16:04 rocky_24 阅读(788) 评论(0) 推荐(0)

仿分词统计的MapReduce 程序。

摘要：HDFS 数据格式：举例单条数据：02-26 08:01:56 [qtp512249001-42] INFO async-statistics - class com.spring.aop.StorageManagerStatAspect${"method":"com.systoon.scloud.master.controller.ImageController.download","ip... 阅读全文

posted @ 2016-03-09 15:33 rocky_24 阅读(745) 评论(0) 推荐(0)

MapReduce JOB 的输出与输出笔记。

摘要：提高 MapReduce 价值，自定义输入和输出。比如跳过存储到 HDFS 中这个耗时的布置。而只是从原始数据源接受数据，或者直接将数据发送给某些处理程序。这些处理程序在 MapReduce 作业完成后使用这些数据。有时由文件块和输入 split 组成的基础 Hadoop 范式并不能满足需求。此时自定义 InputFormat 和 OutputFormat 。三种处理输入的模式： 1... 阅读全文

posted @ 2016-03-08 18:28 rocky_24 阅读(778) 评论(0) 推荐(0)

二 MapReduce 各阶段流程分析

摘要：如果想要将问题变得清晰、精准和优雅，需要关注 MapReduce 作业所需要的系统资源，尤其是集群内部网络资源使用情况。 MR 可以运行在共享集群上处理 TB 级甚至 PB 级的数据。同时，改作业与共享集群的机器上数以百计的任务存在竞争关系。MapReduce 关注点： hadoop MapReduce 作业被分成一系列运行在分布式集群中的 map 任务和 reduce 任务。因此负载是... 阅读全文

posted @ 2016-03-01 18:37 rocky_24 阅读(1301) 评论(0) 推荐(0)

HDFS文件系统上传时序图 PB级文件存储时序图

摘要：自己设计的时序图。来自为知笔记(Wiz) 阅读全文

posted @ 2016-03-01 11:50 rocky_24 阅读(1258) 评论(0) 推荐(0)

HDFS 文件系统流程图。PB级文件存储时序图。

摘要：大小文件通吃，热点hash功能。全局唯一KV索引。百度网盘模式。断点续传功能。MR分析功能。来自为知笔记(Wiz) 阅读全文

posted @ 2016-03-01 11:48 rocky_24 阅读(766) 评论(0) 推荐(0)

HBase 1.1.2 优化插入 Region预分配

摘要：预分Region 与不预分Region 的测试：1 不预分Region： 23~29秒插入100W数据并且蛋疼的是每次都写入一个 RegionServer 且只在一个 Region 相当于人为制造的网络风暴。2 预分Region（3节点分了3个Region）写入 18~19秒 100W 数据。 55555 每秒。（本机网络请求已满。否则应该线性增长）下面是代码... 阅读全文

posted @ 2016-03-01 11:32 rocky_24 阅读(1165) 评论(2) 推荐(1)

rocky_24

愉快的编程，浪浪的写代码~

03 2016 档案

公告