哥不是小萝莉

2018年2月10日

摘要： 1.概述客户端读写数据是先从Zookeeper中获取RegionServer的元数据信息，比如Region地址信息。在执行数据写操作时，HBase会先写MemStore,为什么会写到MemStore。本篇博客将为读者剖析HBase MemStore和Compaction的详细内容。 2.内容 HB 阅读全文

posted @ 2018-02-10 17:21 哥不是小萝莉阅读(3034) 评论(0) 推荐(1)

2018年1月13日

Kylin与CDH兼容性剖析

摘要： 1. 概述 Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 2. 内容在集成Kylin到CDH Hadoop环境中时，发现新版阅读全文

posted @ 2018-01-13 15:45 哥不是小萝莉阅读(4731) 评论(0) 推荐(2)

2017年12月10日

HBase存储剖析与数据迁移

摘要： 1.概述 HBase的存储结构和关系型数据库不一样，HBase面向半结构化数据进行存储。所以，对于结构化的SQL语言查询，HBase自身并没有接口支持。在大数据应用中，虽然也有SQL查询引擎可以查询HBase，比如Phoenix、Drill这类。但是阅读这类SQL查询引擎的底层实现，依然是调用了HB 阅读全文

posted @ 2017-12-10 12:21 哥不是小萝莉阅读(3884) 评论(0) 推荐(2)

2017年11月11日

HBase流量限制和表负载均衡剖析

摘要： 1.概述在HBase-1.1.0之前，HBase集群中资源都是全量的。用户、表这些都是没有限制的，看似完美实则隐患较大。今天，笔者就给大家剖析一下HBase的流量限制和表的负载均衡。 2.内容也许有同学有疑问，为啥要做流量限制，无限制全量跑不是更好吗？举个例子，比如今天的双十一日，数据流量是非常阅读全文

posted @ 2017-11-11 20:55 哥不是小萝莉阅读(5321) 评论(0) 推荐(3)

2017年10月15日

Zeppelin源码

摘要： 1.概述在大数据应用场景中，处理数据分析方面，由于开发者的水平不一样，使用的编程语言也不尽相同，可能会涉及到R、Python、Java、Scala等，数据计算模型也估计不一样，可能涉及的有Spark、Hive、Flink、Kylin等等。本篇博客笔者给大家介绍的内容并不是告诉大家如何去使用。在《Z 阅读全文

posted @ 2017-10-15 03:26 哥不是小萝莉阅读(5154) 评论(2) 推荐(4)

2017年9月14日

Kafka Streams 剖析

摘要： 1.概述 Kafka Streams 是一个用来处理流式数据的库，属于Java类库，它并不是一个流处理框架，和Storm，Spark Streaming这类流处理框架是明显不一样的。那这样一个库是做什么的，能应用到哪些场合，如何使用。笔者今天就给大家来一一剖析这些内容。 2.内容首先，我们研究这样阅读全文

posted @ 2017-09-14 11:10 哥不是小萝莉阅读(7246) 评论(0) 推荐(1)

2017年8月9日

Kafka 存储机制和副本

摘要： 1.概述 Kafka 快速稳定的发展，得到越来越多开发者和使用者的青睐。它的流行得益于它底层的设计和操作简单，存储系统高效，以及充分利用磁盘顺序读写等特性，和其实时在线的业务场景。对于Kafka来说，它是一个分布式的，可分区的，多副本，多订阅者的，基于Zookeeper统一协调的分布式日志系统。常见阅读全文

posted @ 2017-08-09 16:19 哥不是小萝莉阅读(2855) 评论(2) 推荐(2)

2017年7月16日

分布式系统选举算法剖析

摘要： 1.概述我们在了解分布式选举算法之前，我们需要这样一种算法产生的背景。在一个分布式系统中，因为各种意外的因素，有的服务器可能会崩溃或变得不可靠，它就不能和其他服务器达成一致状态。因而这样就需要一种Consensus协议，来确保服务器的容错性，也就是说即使系统中有一两个服务器节点Crash，也不会影阅读全文

posted @ 2017-07-16 13:37 哥不是小萝莉阅读(8565) 评论(0) 推荐(1)

2017年6月10日

Elasticsearch 与 Kafka 整合剖析

摘要： 1.概述目前，随着大数据的浪潮，Kafka 被越来越多的企业所认可，如今的Kafka已发展到0.10.x，其优秀的特性也带给我们解决实际业务的方案。对于数据分流来说，既可以分流到离线存储平台（HDFS），离线计算平台（Hive仓库），也可以分流实时流水计算（Storm，Spark）等，同样也可以分阅读全文

posted @ 2017-06-10 14:19 哥不是小萝莉阅读(24193) 评论(1) 推荐(4)

2017年5月6日

Kafka 源码剖析

摘要： 1.概述在对Kafka使用层面掌握后，进一步提升分析其源码是极有必要的。纵观Kafka源码工程结构，不算太复杂，代码量也不算大。分析研究其实现细节难度不算太大。今天笔者给大家分析的是其核心处理模块，core模块。 2.内容首先，我们需要对Kafka的工程结构有一个整体的认知度，Kafka 大家最阅读全文

posted @ 2017-05-06 18:14 哥不是小萝莉阅读(19139) 评论(1) 推荐(2)

哥不是小萝莉

公告