哥不是小萝莉

2017年4月9日

摘要： 1.概述在大数据的浪潮之下，技术的更新迭代十分频繁。受技术开源的影响，大数据开发者提供了十分丰富的工具。但也因为如此，增加了开发者选择合适工具的难度。在大数据处理一些问题的时候，往往使用的技术是多样化的。这完全取决于业务需求，比如进行批处理的MapReduce，实时流处理的Flink，以及SQL交阅读全文

posted @ 2017-04-09 16:14 哥不是小萝莉阅读(14369) 评论(0) 推荐(1)

2017年3月7日

Kafka Eagle 源码解读

摘要： 1.概述在《Kafka 消息监控 - Kafka Eagle》一文中，简单的介绍了 Kafka Eagle这款监控工具的作用，截图预览，以及使用详情。今天笔者通过其源码来解读实现细节。目前该项目已托管于 Github 之上，作者编写了使用手册，告知使用者如何安装，部署，启动该系统。但对于实现的细节阅读全文

posted @ 2017-03-07 10:56 哥不是小萝莉阅读(5475) 评论(17) 推荐(4)

2017年2月5日

Apache Arrow 内存数据

摘要： 1.概述 Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层，来加快大数据分析项目的运行速度。 2.内容现在大数据处理模型很多，用户在应用大数据分析时，除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外，同样也得关注系统的扩阅读全文

posted @ 2017-02-05 16:04 哥不是小萝莉阅读(14385) 评论(1) 推荐(1)

2017年1月9日

Kafka Offset Storage

摘要： 1.概述目前，Kafka 官网最新版[0.10.1.1]，已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实，早在 0.8.2.2 版本，已支持存入消费的 offset 到Topic中，只是那时候默认是将消费的 offset 存阅读全文

posted @ 2017-01-09 20:26 哥不是小萝莉阅读(13752) 评论(0) 推荐(4)

2016年12月7日

Hive Streaming 追加 ORC 文件

摘要： 1.概述在存储业务数据的时候，随着业务的增长，Hive 表存储在 HDFS 的上的数据会随时间的增加而增加，而以 Text 文本格式存储在 HDFS 上，所消耗的容量资源巨大。那么，我们需要有一种方式来减少容量的成本。而在 Hive 中，有一种 ORC 文件格式可以极大的减少存储的容量成本。今天，阅读全文

posted @ 2016-12-07 12:08 哥不是小萝莉阅读(4891) 评论(6) 推荐(2)

2016年11月4日

Kafka 分区备份实战

摘要： 1.概述在 Kafka 集群中，我们可以对每个 Topic 进行一个或是多个分区，并为该 Topic 指定备份数。这部分元数据信息都是存放在 Zookeeper 上，我们可以使用 zkCli 客户端，通过 ls 和 get 命令来查看元数据信息。通过 log.dirs 属性控制消息存放路径，每个分阅读全文

posted @ 2016-11-04 16:27 哥不是小萝莉阅读(6920) 评论(2) 推荐(3)

2016年10月8日

Hive SQL 监控系统 - Hive Falcon

摘要： 1.概述在开发工作当中，提交 Hadoop 任务，任务的运行详情，这是我们所关心的，当业务并不复杂的时候，我们可以使用 Hadoop 提供的命令工具去管理 YARN 中的任务。在编写 Hive SQL 的时候，需要在 Hive 终端，编写 SQL 语句，来观察 MapReduce 的运行情况，长此阅读全文

posted @ 2016-10-08 09:56 哥不是小萝莉阅读(6068) 评论(5) 推荐(4)

2016年9月1日

Kafka 消息监控 - Kafka Eagle

摘要： 1.概述在开发工作当中，消费 Kafka 集群中的消息时，数据的变动是我们所关心的，当业务并不复杂的前提下，我们可以使用 Kafka 提供的命令工具，配合 Zookeeper 客户端工具，可以很方便的完成我们的工作。随着业务的复杂化，Group 和 Topic 的增加，此时我们使用 Kafka 提阅读全文

posted @ 2016-09-01 13:15 哥不是小萝莉阅读(48869) 评论(72) 推荐(9)

2016年8月10日

Flink 案例整合

摘要： 1.概述 Flink 1.1.0 版本已经在官方发布了，官方博客于 2016-08-08 更新了 Flink 1.1.0 的变动。在这 Flink 版本的发布，添加了 SQL 语法这一特性。这对于业务场景复杂，依赖于 SQL 来分析统计数据，算得上是一个不错的福利。加上之前有同学和朋友邮件中提到，F 阅读全文

posted @ 2016-08-10 17:04 哥不是小萝莉阅读(25487) 评论(2) 推荐(2)

2016年7月13日

Hadoop 生态系统

摘要： 1.概述最近收到一些同学和朋友的邮件，说能不能整理一下 Hadoop 生态圈的相关内容，然后分享一些，我觉得这是一个不错的提议，于是，花了一些业余时间整理了 Hadoop 的生态系统，并将其进行了归纳总结，进而将其以表格的形式进行了罗列。涉及的内容有以下几点：分布式文件系统分布式编程模型 No 阅读全文

posted @ 2016-07-13 15:36 哥不是小萝莉阅读(6189) 评论(2) 推荐(7)

哥不是小萝莉

公告