随笔分类 -  hadoop

hadoop生态圈记录
摘要:1.概述 HBase的存储结构和关系型数据库不一样,HBase面向半结构化数据进行存储。所以,对于结构化的SQL语言查询,HBase自身并没有接口支持。在大数据应用中,虽然也有SQL查询引擎可以查询HBase,比如Phoenix、Drill这类。但是阅读这类SQL查询引擎的底层实现,依然是调用了HB 阅读全文
posted @ 2017-12-10 12:21 哥不是小萝莉 阅读(3766) 评论(0) 推荐(2) 编辑
摘要:1.概述 在HBase-1.1.0之前,HBase集群中资源都是全量的。用户、表这些都是没有限制的,看似完美实则隐患较大。今天,笔者就给大家剖析一下HBase的流量限制和表的负载均衡。 2.内容 也许有同学有疑问,为啥要做流量限制,无限制全量跑不是更好吗?举个例子,比如今天的双十一日,数据流量是非常 阅读全文
posted @ 2017-11-11 20:55 哥不是小萝莉 阅读(5135) 评论(0) 推荐(3) 编辑
摘要:1.概述 在大数据应用场景中,处理数据分析方面,由于开发者的水平不一样,使用的编程语言也不尽相同,可能会涉及到R、Python、Java、Scala等,数据计算模型也估计不一样,可能涉及的有Spark、Hive、Flink、Kylin等等。本篇博客笔者给大家介绍的内容并不是告诉大家如何去使用。在《Z 阅读全文
posted @ 2017-10-15 03:26 哥不是小萝莉 阅读(4935) 评论(2) 推荐(3) 编辑
摘要:1.概述 Kafka Streams 是一个用来处理流式数据的库,属于Java类库,它并不是一个流处理框架,和Storm,Spark Streaming这类流处理框架是明显不一样的。那这样一个库是做什么的,能应用到哪些场合,如何使用。笔者今天就给大家来一一剖析这些内容。 2.内容 首先,我们研究这样 阅读全文
posted @ 2017-09-14 11:10 哥不是小萝莉 阅读(7173) 评论(0) 推荐(1) 编辑
摘要:1.概述 Kafka 快速稳定的发展,得到越来越多开发者和使用者的青睐。它的流行得益于它底层的设计和操作简单,存储系统高效,以及充分利用磁盘顺序读写等特性,和其实时在线的业务场景。对于Kafka来说,它是一个分布式的,可分区的,多副本,多订阅者的,基于Zookeeper统一协调的分布式日志系统。常见 阅读全文
posted @ 2017-08-09 16:19 哥不是小萝莉 阅读(2825) 评论(2) 推荐(2) 编辑
摘要:1.概述 我们在了解分布式选举算法之前,我们需要这样一种算法产生的背景。在一个分布式系统中,因为各种意外的因素,有的服务器可能会崩溃或变得不可靠,它就不能和其他服务器达成一致状态。因而这样就需要一种Consensus协议,来确保服务器的容错性,也就是说即使系统中有一两个服务器节点Crash,也不会影 阅读全文
posted @ 2017-07-16 13:37 哥不是小萝莉 阅读(8474) 评论(0) 推荐(1) 编辑
摘要:1.概述 在对Kafka使用层面掌握后,进一步提升分析其源码是极有必要的。纵观Kafka源码工程结构,不算太复杂,代码量也不算大。分析研究其实现细节难度不算太大。今天笔者给大家分析的是其核心处理模块,core模块。 2.内容 首先,我们需要对Kafka的工程结构有一个整体的认知度,Kafka 大家最 阅读全文
posted @ 2017-05-06 18:14 哥不是小萝莉 阅读(18885) 评论(1) 推荐(2) 编辑
摘要:1.概述 在大数据的浪潮之下,技术的更新迭代十分频繁。受技术开源的影响,大数据开发者提供了十分丰富的工具。但也因为如此,增加了开发者选择合适工具的难度。在大数据处理一些问题的时候,往往使用的技术是多样化的。这完全取决于业务需求,比如进行批处理的MapReduce,实时流处理的Flink,以及SQL交 阅读全文
posted @ 2017-04-09 16:14 哥不是小萝莉 阅读(14253) 评论(0) 推荐(1) 编辑
摘要:1.概述 在《Kafka 消息监控 - Kafka Eagle》一文中,简单的介绍了 Kafka Eagle这款监控工具的作用,截图预览,以及使用详情。今天笔者通过其源码来解读实现细节。目前该项目已托管于 Github 之上,作者编写了使用手册,告知使用者如何安装,部署,启动该系统。但对于实现的细节 阅读全文
posted @ 2017-03-07 10:56 哥不是小萝莉 阅读(5374) 评论(16) 推荐(4) 编辑
摘要:1.概述 Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层,来加快大数据分析项目的运行速度。 2.内容 现在大数据处理模型很多,用户在应用大数据分析时,除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外,同样也得关注系统的扩 阅读全文
posted @ 2017-02-05 16:04 哥不是小萝莉 阅读(14034) 评论(1) 推荐(1) 编辑
摘要:1.概述 目前,Kafka 官网最新版[0.10.1.1],已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实,早在 0.8.2.2 版本,已支持存入消费的 offset 到Topic中,只是那时候默认是将消费的 offset 存 阅读全文
posted @ 2017-01-09 20:26 哥不是小萝莉 阅读(13651) 评论(0) 推荐(4) 编辑
摘要:1.概述 在存储业务数据的时候,随着业务的增长,Hive 表存储在 HDFS 的上的数据会随时间的增加而增加,而以 Text 文本格式存储在 HDFS 上,所消耗的容量资源巨大。那么,我们需要有一种方式来减少容量的成本。而在 Hive 中,有一种 ORC 文件格式可以极大的减少存储的容量成本。今天, 阅读全文
posted @ 2016-12-07 12:08 哥不是小萝莉 阅读(4791) 评论(6) 推荐(2) 编辑
摘要:1.概述 在开发工作当中,提交 Hadoop 任务,任务的运行详情,这是我们所关心的,当业务并不复杂的时候,我们可以使用 Hadoop 提供的命令工具去管理 YARN 中的任务。在编写 Hive SQL 的时候,需要在 Hive 终端,编写 SQL 语句,来观察 MapReduce 的运行情况,长此 阅读全文
posted @ 2016-10-08 09:56 哥不是小萝莉 阅读(5965) 评论(5) 推荐(4) 编辑
摘要:1.概述 在开发工作当中,消费 Kafka 集群中的消息时,数据的变动是我们所关心的,当业务并不复杂的前提下,我们可以使用 Kafka 提供的命令工具,配合 Zookeeper 客户端工具,可以很方便的完成我们的工作。随着业务的复杂化,Group 和 Topic 的增加,此时我们使用 Kafka 提 阅读全文
posted @ 2016-09-01 13:15 哥不是小萝莉 阅读(48418) 评论(71) 推荐(9) 编辑
摘要:1.概述 Flink 1.1.0 版本已经在官方发布了,官方博客于 2016-08-08 更新了 Flink 1.1.0 的变动。在这 Flink 版本的发布,添加了 SQL 语法这一特性。这对于业务场景复杂,依赖于 SQL 来分析统计数据,算得上是一个不错的福利。加上之前有同学和朋友邮件中提到,F 阅读全文
posted @ 2016-08-10 17:04 哥不是小萝莉 阅读(25424) 评论(2) 推荐(2) 编辑
摘要:1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列。涉及的内容有以下几点: 分布式文件系统 分布式编程模型 No 阅读全文
posted @ 2016-07-13 15:36 哥不是小萝莉 阅读(6126) 评论(2) 推荐(7) 编辑
摘要:1.概述 在如今数据爆炸的时代,企业的数据量与日俱增,大数据产品层出不穷。今天给大家分享一款产品—— Apache Flink,目前,已是 Apache 顶级项目之一。那么,接下来,笔者为大家介绍Flink 的相关内容。 2.内容 2.1 What's Flink Apache Flink 是一个面 阅读全文
posted @ 2016-06-13 15:23 哥不是小萝莉 阅读(33119) 评论(6) 推荐(6) 编辑
摘要:1.概述 最近有同学问道,除了使用 Storm 充当实时计算的模型外,还有木有其他的方式来实现实时计算的业务。了解到,在使用 Storm 时,需要编写基于编程语言的代码。比如,要实现一个流水指标的统计,需要去编写相应的业务代码,能不能有一种简便的方式来实现这一需求。在解答了该同学的疑惑后,整理了该实 阅读全文
posted @ 2016-06-05 15:35 哥不是小萝莉 阅读(8773) 评论(3) 推荐(4) 编辑
摘要:1.概述 上次给大家分享了关于 Kafka SQL 的实现思路,这次给大家分享如何实现 Kafka SQL。要实现 Kafka SQL,在上一篇《Kafka - SQL 引擎分享》中分享了其实现的思路,核心包含数据源的加载,以及 SQL 树的映射。今天笔者给大家分享相关实现的代码。 2.内容 这里, 阅读全文
posted @ 2016-05-09 09:46 哥不是小萝莉 阅读(4628) 评论(3) 推荐(2) 编辑
摘要:1.概述 大多数情况下,我们使用 Kafka 只是作为消息处理。在有些情况下,我们需要多次读取 Kafka 集群中的数据。当然,我们可以通过调用 Kafka 的 API 来完成,但是针对不同的业务需求,我们需要去编写不同的接口,在经过编译,打包,发布等一系列流程。最后才能看到我们预想的结果。那么,我 阅读全文
posted @ 2016-04-14 09:33 哥不是小萝莉 阅读(4929) 评论(1) 推荐(5) 编辑