随笔分类 -  hadoop

hadoop生态圈记录
摘要:1.概述 在调度 Hadoop 的相关作业时,有以下几种方式: 基于 Linux 系统级别的 Crontab。 Java 应用级别的 Quartz。 第三方的调度系统。 自行开发 Hadoop 应用调度系统。 对于前两种,使用 Crontab 和 Quartz 是基本可以满足业务需求,但有其弊端。在 阅读全文
posted @ 2016-02-15 18:30 哥不是小萝莉 阅读(19346) 评论(3) 推荐(2) 编辑
摘要:1.概述 在编写 Flink,Spark,Hive 等相关作业时,要是能快速的将我们所编写的作业能可视化在我们面前,是件让人兴奋的时,如果能带上趋势功能就更好了。今天,给大家介绍这么一款工具。它就能满足上述要求,在使用了一段时间之后,这里给大家分享以下使用心得。2.How to do 首先,我们... 阅读全文
posted @ 2016-01-21 17:09 哥不是小萝莉 阅读(24232) 评论(0) 推荐(4) 编辑
摘要:1.概述 Apache Kylin是一个开源的分布式分析引擎,提供SQL接口并且用于OLAP业务于Hadoop的大数据集上,该项目由eBay贡献于Apache。2.What is Kylin 在使用一种模型,我们得知道她是干什么的,那么首先来看看Kylin的特性,其内容如下所示:可扩展超快的OL... 阅读全文
posted @ 2016-01-04 16:11 哥不是小萝莉 阅读(3652) 评论(7) 推荐(3) 编辑
摘要:1.Overview Ambari是Apache推出的一个集中管理Hadoop的集群的一个平台,可以快速帮助搭建Hadoop及相关以来组件的平台,管理集群方便。这篇博客记录Ambari的相关问题和注意事项。方便为初学者省去搭配各个社区版的烦恼。2.How to works 在Ambari的官方W... 阅读全文
posted @ 2015-12-21 14:47 哥不是小萝莉 阅读(5226) 评论(3) 推荐(3) 编辑
摘要:1.概述 在《Hadoop-Drill深度剖析》一文当中,给大家介绍了Drill的相关内容,就实时查询来说,Drill基本能够满足要求,同时还可以做一个简单业务上的聚合,如果在使用Hive做一些简单的业务统计(不涉及多维度,比如CUBE,ROLLUP之类的函数),只是用一些基本的聚合函数或是JOI... 阅读全文
posted @ 2015-12-15 11:08 哥不是小萝莉 阅读(6675) 评论(2) 推荐(4) 编辑
摘要:1.概述 在《Hadoop - 实时查询Drill》一文当中,笔者给大家介绍如何去处理实时查询这样的业务场景,也是简略的提了一下如何去实时查询HDFS,然起相关细节并未说明。今天给大家细说一下相关细节,其中包含:HDFS,Hive以及HBase等内容。2.数据源和文件格式 在使用Drill去做实... 阅读全文
posted @ 2015-11-28 14:20 哥不是小萝莉 阅读(3967) 评论(0) 推荐(3) 编辑
摘要:1.概述 在现实业务当中,存在这样的业务场景,需要实时去查询HDFS上的相关存储数据,普通的查询(如:Hive查询),时延较高。那么,是否存在时延较小的查询组件。在业界目前较为成熟的有Cloudera的Impala,Apache的Drill,Hortonworks的Stinger。本篇博客主要为大... 阅读全文
posted @ 2015-11-24 16:12 哥不是小萝莉 阅读(6335) 评论(5) 推荐(5) 编辑
摘要:1.概述 在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如:作业的依赖调度,任务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂。那么,在没有条件和精力去开发一套调度系统的情况下,我们去选择一款第三方开源的调... 阅读全文
posted @ 2015-11-15 11:10 哥不是小萝莉 阅读(14968) 评论(0) 推荐(6) 编辑
摘要:1.概述 最近,有小伙伴涉及到源码编译。然而,在编译期间也是遇到各种坑,在求助于搜索引擎,技术博客,也是难以解决自身所遇到的问题。笔者在被询问多次的情况下,今天打算为大家来写一篇文章来剖析下编译的细节,以及遇到编译问题后,应该如何去解决这样类似的问题。因为,编译的问题,对于后期业务拓展,二次开发,... 阅读全文
posted @ 2015-10-29 10:47 哥不是小萝莉 阅读(1939) 评论(0) 推荐(3) 编辑
摘要:1.概述 在接触了第一代MapReduce和第二代MapReduce之后,或许会有这样的疑惑,我们从一些书籍和博客当中获取MapReduce的一些原理和算法,在第一代当中会有JobTrack,TaskTrack之类的术语,在第二代会有ResourceManager,NodeManager,Appli 阅读全文
posted @ 2015-10-13 16:27 哥不是小萝莉 阅读(1684) 评论(2) 推荐(4) 编辑
摘要:1.概述 其实,在从事过调优相关的工作后,会发现其实调优是一项较为复杂的工作。而对于Hadoop这样复杂且庞大的系统来说,调优更是一项巨大的工作,由于Hadoop包含Common、HDFS、MapReduce、YARN等模块,每个模块都有可以根据自身业务进行优化的工作,本篇博客也是针对某些模块进行... 阅读全文
posted @ 2015-10-10 13:52 哥不是小萝莉 阅读(3221) 评论(3) 推荐(3) 编辑
摘要:1.概述 从HDFS的应用层面来看,我们可以非常容易的使用其API来操作HDFS,实现目录的创建、删除,文件的上传下载、删除、追加(Hadoop2.x版本以后开始支持)等功能。然而仅仅局限与代码层面是不够的,了解其实现的具体细节和过程是很有必要的,本文笔者给大家从以下几个方面进行剖析:Create... 阅读全文
posted @ 2015-09-30 15:19 哥不是小萝莉 阅读(1343) 评论(2) 推荐(2) 编辑
摘要:1.概述 最近在和人交流时谈到数据相似度和数据共性问题,而刚好在业务层面有类似的需求,今天和大家分享这类问题的解决思路,分享目录如下所示:业务背景编码实践预览截图 下面开始今天的内容分享。2.业务背景 目前有这样一个背景,在一大堆数据中,里面存放着图片的相关信息,如下图所示: 上图只是给大家... 阅读全文
posted @ 2015-09-02 11:36 哥不是小萝莉 阅读(1349) 评论(2) 推荐(2) 编辑
摘要:1.概述 在《高可用Hadoop平台-Oozie工作流》一篇中,给大家分享了如何去单一的集成Oozie这样一个插件。今天为大家介绍如何去使用Oozie创建相关工作流运行与Hadoop上,已经在创建过程当中需要注意的事项,下面是今天的分享目录:Oozie简介任务工作流截图预览 下面开始今天的内容分... 阅读全文
posted @ 2015-08-25 17:51 哥不是小萝莉 阅读(9819) 评论(0) 推荐(3) 编辑
摘要:1.概述 在开发Hadoop的相关应用使用,在业务不复杂,任务不多的情况下,我们可以直接使用Crontab去完成相关应用的调度。今天给大家介绍的是统一管理各种调度任务的系统,下面为今天分享的内容目录:内容介绍Oozie Server截图预览 下面开始今天的内容分享。2.内容介绍 今天的内容不涉... 阅读全文
posted @ 2015-08-20 16:56 哥不是小萝莉 阅读(4179) 评论(4) 推荐(2) 编辑
摘要:1.概述 在《Hadoop2源码分析-YARN RPC 示例介绍》一文当中,给大家介绍了YARN 的 RPC 机制,以及相关代码的演示,今天我们继续去学习 YARN 的服务库和事件库,分享目录如下所示:服务库和事件库介绍使用示例截图预览 下面开始今天的内容分享。2.服务库和事件库介绍2.1服务库... 阅读全文
posted @ 2015-07-23 11:35 哥不是小萝莉 阅读(2203) 评论(0) 推荐(2) 编辑
摘要:1.概述 之前在《Hadoop2源码分析-RPC探索实战》一文当中介绍了Hadoop的RPC机制,今天给大家分享关于YARN的RPC的机制。下面是今天的分享目录:YARN的RPC介绍YARN的RPC示例截图预览 下面开始今天的内容分享。2.YARN的RPC介绍 我们知道在Hadoop的RPC当... 阅读全文
posted @ 2015-07-21 16:28 哥不是小萝莉 阅读(4236) 评论(0) 推荐(4) 编辑
摘要:1.概述 在项目业务倍增的情况下,查询效率受到影响,这里我们经过讨论,引进了分布式搜索套件——ElasticSearch,通过分布式搜索来解决当下业务上存在的问题。下面给大家列出今天分析的目录:ElasticSearch 套件介绍ElasticSearch 应用场景和案例平台架构 下面开始今天的... 阅读全文
posted @ 2015-07-17 16:33 哥不是小萝莉 阅读(10671) 评论(6) 推荐(2) 编辑
摘要:1.概述 经过前面Kafka实战系列的学习,我们通过学习《Kafka实战-入门》了解Kafka的应用场景和基本原理,《Kafka实战-Kafka Cluster》一文给大家分享了Kafka集群的搭建部署,让大家掌握了集群的搭建步骤,《Kafka实战-实时日志统计流程》一文给大家讲解一个项目(或者说... 阅读全文
posted @ 2015-07-15 14:32 哥不是小萝莉 阅读(12264) 评论(4) 推荐(2) 编辑
摘要:1.概述 在《Kafka实战-Flume到Kafka》一文中给大家分享了Kafka的数据源生产,今天为大家介绍如何去实时消费Kafka中的数据。这里使用实时计算的模型——Storm。下面是今天分享的主要内容,如下所示:数据消费Storm计算预览截图 接下来,我们开始分享今天的内容。2.数据消费 ... 阅读全文
posted @ 2015-07-09 11:29 哥不是小萝莉 阅读(22830) 评论(0) 推荐(6) 编辑