hadoop - 随笔分类(第4页) - 哥不是小萝莉

Spark 实时计算整合案例

摘要：1.概述最近有同学问道，除了使用 Storm 充当实时计算的模型外，还有木有其他的方式来实现实时计算的业务。了解到，在使用 Storm 时，需要编写基于编程语言的代码。比如，要实现一个流水指标的统计，需要去编写相应的业务代码，能不能有一种简便的方式来实现这一需求。在解答了该同学的疑惑后，整理了该实阅读全文

posted @ 2016-06-05 15:35 哥不是小萝莉阅读(8848) 评论(3) 推荐(4)

Kafka - SQL 代码实现

摘要：1.概述上次给大家分享了关于 Kafka SQL 的实现思路，这次给大家分享如何实现 Kafka SQL。要实现 Kafka SQL，在上一篇《Kafka - SQL 引擎分享》中分享了其实现的思路，核心包含数据源的加载，以及 SQL 树的映射。今天笔者给大家分享相关实现的代码。 2.内容这里，阅读全文

posted @ 2016-05-09 09:46 哥不是小萝莉阅读(4714) 评论(3) 推荐(2)

Kafka - SQL 引擎分享

摘要：1.概述大多数情况下，我们使用 Kafka 只是作为消息处理。在有些情况下，我们需要多次读取 Kafka 集群中的数据。当然，我们可以通过调用 Kafka 的 API 来完成，但是针对不同的业务需求，我们需要去编写不同的接口，在经过编译，打包，发布等一系列流程。最后才能看到我们预想的结果。那么，我阅读全文

posted @ 2016-04-14 09:33 哥不是小萝莉阅读(4980) 评论(1) 推荐(5)

Hadoop - Azkaban 作业调度

摘要：1.概述在调度 Hadoop 的相关作业时，有以下几种方式：基于 Linux 系统级别的 Crontab。 Java 应用级别的 Quartz。第三方的调度系统。自行开发 Hadoop 应用调度系统。对于前两种，使用 Crontab 和 Quartz 是基本可以满足业务需求，但有其弊端。在阅读全文

posted @ 2016-02-15 18:30 哥不是小萝莉阅读(19438) 评论(3) 推荐(2)

Hadoop - Zeppelin 使用心得

摘要：1.概述在编写 Flink，Spark，Hive 等相关作业时，要是能快速的将我们所编写的作业能可视化在我们面前，是件让人兴奋的时，如果能带上趋势功能就更好了。今天，给大家介绍这么一款工具。它就能满足上述要求，在使用了一段时间之后，这里给大家分享以下使用心得。2.How to do 首先，我们... 阅读全文

posted @ 2016-01-21 17:09 哥不是小萝莉阅读(24398) 评论(0) 推荐(5)

Hadoop - Kylin On OLAP

摘要：1.概述 Apache Kylin是一个开源的分布式分析引擎，提供SQL接口并且用于OLAP业务于Hadoop的大数据集上，该项目由eBay贡献于Apache。2.What is Kylin 在使用一种模型，我们得知道她是干什么的，那么首先来看看Kylin的特性，其内容如下所示：可扩展超快的OL... 阅读全文

posted @ 2016-01-04 16:11 哥不是小萝莉阅读(3698) 评论(7) 推荐(3)

Hadoop - Ambari集群管理剖析

摘要：1.Overview Ambari是Apache推出的一个集中管理Hadoop的集群的一个平台，可以快速帮助搭建Hadoop及相关以来组件的平台，管理集群方便。这篇博客记录Ambari的相关问题和注意事项。方便为初学者省去搭配各个社区版的烦恼。2.How to works 在Ambari的官方W... 阅读全文

posted @ 2015-12-21 14:47 哥不是小萝莉阅读(5298) 评论(3) 推荐(3)

HBase - Phoenix剖析

摘要：1.概述在《Hadoop－Drill深度剖析》一文当中，给大家介绍了Drill的相关内容，就实时查询来说，Drill基本能够满足要求，同时还可以做一个简单业务上的聚合，如果在使用Hive做一些简单的业务统计（不涉及多维度，比如CUBE，ROLLUP之类的函数），只是用一些基本的聚合函数或是JOI... 阅读全文

posted @ 2015-12-15 11:08 哥不是小萝莉阅读(6730) 评论(2) 推荐(4)

Hadoop－Drill深度剖析

摘要：1.概述在《Hadoop - 实时查询Drill》一文当中，笔者给大家介绍如何去处理实时查询这样的业务场景，也是简略的提了一下如何去实时查询HDFS，然起相关细节并未说明。今天给大家细说一下相关细节，其中包含：HDFS，Hive以及HBase等内容。2.数据源和文件格式在使用Drill去做实... 阅读全文

posted @ 2015-11-28 14:20 哥不是小萝莉阅读(4040) 评论(0) 推荐(3)

Hadoop - 实时查询Drill

摘要：1.概述在现实业务当中，存在这样的业务场景，需要实时去查询HDFS上的相关存储数据，普通的查询（如：Hive查询），时延较高。那么，是否存在时延较小的查询组件。在业界目前较为成熟的有Cloudera的Impala，Apache的Drill，Hortonworks的Stinger。本篇博客主要为大... 阅读全文

posted @ 2015-11-24 16:12 哥不是小萝莉阅读(6443) 评论(5) 推荐(5)

Hadoop - 任务调度系统比较

摘要：1.概述在Hadoop应用，随着业务指标的迭代，而使其日趋复杂化的时候，管理Hadoop的相关应用会变成一件头疼的事情，如：作业的依赖调度，任务的运行情况的监控，异常问题的排查等，这些问题会是的我们日常的工作变得复杂。那么，在没有条件和精力去开发一套调度系统的情况下，我们去选择一款第三方开源的调... 阅读全文

posted @ 2015-11-15 11:10 哥不是小萝莉阅读(15077) 评论(0) 推荐(6)

Hadoop2.x源码－编译剖析

摘要：1.概述最近，有小伙伴涉及到源码编译。然而，在编译期间也是遇到各种坑，在求助于搜索引擎，技术博客，也是难以解决自身所遇到的问题。笔者在被询问多次的情况下，今天打算为大家来写一篇文章来剖析下编译的细节，以及遇到编译问题后，应该如何去解决这样类似的问题。因为，编译的问题，对于后期业务拓展，二次开发，... 阅读全文

posted @ 2015-10-29 10:47 哥不是小萝莉阅读(1979) 评论(0) 推荐(3)

MapReduce－深度剖析

摘要：1.概述在接触了第一代MapReduce和第二代MapReduce之后，或许会有这样的疑惑，我们从一些书籍和博客当中获取MapReduce的一些原理和算法，在第一代当中会有JobTrack，TaskTrack之类的术语，在第二代会有ResourceManager，NodeManager，Appli 阅读全文

posted @ 2015-10-13 16:27 哥不是小萝莉阅读(1708) 评论(2) 推荐(4)

Hadoop－调优剖析

摘要：1.概述其实，在从事过调优相关的工作后，会发现其实调优是一项较为复杂的工作。而对于Hadoop这样复杂且庞大的系统来说，调优更是一项巨大的工作，由于Hadoop包含Common、HDFS、MapReduce、YARN等模块，每个模块都有可以根据自身业务进行优化的工作，本篇博客也是针对某些模块进行... 阅读全文

posted @ 2015-10-10 13:52 哥不是小萝莉阅读(3286) 评论(3) 推荐(3)

HDFS－Architecture剖析

摘要：1.概述从HDFS的应用层面来看，我们可以非常容易的使用其API来操作HDFS，实现目录的创建、删除，文件的上传下载、删除、追加（Hadoop2.x版本以后开始支持）等功能。然而仅仅局限与代码层面是不够的，了解其实现的具体细节和过程是很有必要的，本文笔者给大家从以下几个方面进行剖析：Create... 阅读全文

posted @ 2015-09-30 15:19 哥不是小萝莉阅读(1380) 评论(2) 推荐(2)

MapReduce业务－图片关联计算

摘要：1.概述最近在和人交流时谈到数据相似度和数据共性问题，而刚好在业务层面有类似的需求，今天和大家分享这类问题的解决思路，分享目录如下所示：业务背景编码实践预览截图下面开始今天的内容分享。2.业务背景目前有这样一个背景，在一大堆数据中，里面存放着图片的相关信息，如下图所示：上图只是给大家... 阅读全文

posted @ 2015-09-02 11:36 哥不是小萝莉阅读(1382) 评论(2) 推荐(2)

高可用Hadoop平台－Oozie工作流之Hadoop调度

摘要：1.概述在《高可用Hadoop平台－Oozie工作流》一篇中，给大家分享了如何去单一的集成Oozie这样一个插件。今天为大家介绍如何去使用Oozie创建相关工作流运行与Hadoop上，已经在创建过程当中需要注意的事项，下面是今天的分享目录：Oozie简介任务工作流截图预览下面开始今天的内容分... 阅读全文

posted @ 2015-08-25 17:51 哥不是小萝莉阅读(9888) 评论(0) 推荐(3)

高可用Hadoop平台－Oozie工作流

摘要：1.概述在开发Hadoop的相关应用使用，在业务不复杂，任务不多的情况下，我们可以直接使用Crontab去完成相关应用的调度。今天给大家介绍的是统一管理各种调度任务的系统，下面为今天分享的内容目录：内容介绍Oozie Server截图预览下面开始今天的内容分享。2.内容介绍今天的内容不涉... 阅读全文

posted @ 2015-08-20 16:56 哥不是小萝莉阅读(4235) 评论(4) 推荐(2)

Hadoop2源码分析－YARN 的服务库和事件库

摘要：1.概述在《Hadoop2源码分析－YARN RPC 示例介绍》一文当中，给大家介绍了YARN 的 RPC 机制，以及相关代码的演示，今天我们继续去学习 YARN 的服务库和事件库，分享目录如下所示：服务库和事件库介绍使用示例截图预览下面开始今天的内容分享。2.服务库和事件库介绍2.1服务库... 阅读全文

posted @ 2015-07-23 11:35 哥不是小萝莉阅读(2252) 评论(0) 推荐(2)

Hadoop2源码分析－YARN RPC 示例介绍

摘要：1.概述之前在《Hadoop2源码分析－RPC探索实战》一文当中介绍了Hadoop的RPC机制，今天给大家分享关于YARN的RPC的机制。下面是今天的分享目录：YARN的RPC介绍YARN的RPC示例截图预览下面开始今天的内容分享。2.YARN的RPC介绍我们知道在Hadoop的RPC当... 阅读全文

posted @ 2015-07-21 16:28 哥不是小萝莉阅读(4295) 评论(0) 推荐(4)

哥不是小萝莉

随笔分类 - hadoop

公告