摘要:
不多说,直接上干货! 目前啊,都知道,大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。 手工部署呢,需配置太多参数,但是,好理解其原理,建议初学这样做,能学到很多。该方式啊,均得由用户执行,细节太多,切 阅读全文
posted @ 2016-11-30 17:50
大数据和AI躺过的坑
阅读(19096)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! 首先,大家先去看我这篇博客。对于Oozie的安装有一个全新的认识。 Oozie安装的说明 我这里呢,本篇博文定位于手动来安装Oozie,同时避免Apache版本的繁琐编译安装,直接使用CDH版本,已经编译好的oozie-4.1.0-cdh5.5.4.tar.gz。 如果,你要使 阅读全文
posted @ 2016-11-30 16:40
大数据和AI躺过的坑
阅读(5469)
评论(0)
推荐(0)
摘要:
不多说,直接干货! Oozie相当于Hadoop的一个客户端,因此集群中要有一台机器部署Oozie server端即可,由于可以有任意多个客户端连接Oozie,故每个客户端都必须部署Oozie client。 比如我的机器有hadoopmaster、hadoopslave1、hadoopslave2 阅读全文
posted @ 2016-11-30 15:32
大数据和AI躺过的坑
阅读(1963)
评论(0)
推荐(0)
摘要:
Oozie的架构图,如下: 从oozie的架构图中,可以看到所有的任务都是通过oozie生成相应的任务客户端,并通过任务客户端来提交相应的任务。 继续。。。 阅读全文
posted @ 2016-11-30 14:33
大数据和AI躺过的坑
阅读(1144)
评论(0)
推荐(0)
摘要:
Oozie的作用: 1、统一调度hadoop系统中常见的mr任务启动、 hdfs操作、 shell调度、 hive操作等 2、使得复杂的依赖关系、时间触发、事件触发使用xml语言进行表达,开发效率提高 3、一组任务使用一个DAG来表示,使用图形表达流程逻辑更加清晰 4、支持很多种任务调度,能完成大部 阅读全文
posted @ 2016-11-30 14:30
大数据和AI躺过的坑
阅读(3091)
评论(1)
推荐(1)
摘要:
但是,一般用Azkaban了。(具体见我写的另一篇博客:) 官网:https://oozie.apache.org/ Oozie is a workflow scheduler system to manage Apache Hadoop jobs. Oozie Workflow jobs are 阅读全文
posted @ 2016-11-30 14:28
大数据和AI躺过的坑
阅读(36145)
评论(0)
推荐(2)
摘要:
导读 Flume NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。 由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本!!! 经过架构重构后,Flume NG更像 阅读全文
posted @ 2016-11-30 10:14
大数据和AI躺过的坑
阅读(2858)
评论(0)
推荐(0)
摘要:
Flume OG 与 Flume NG 的对比 1、Flume OG Flume OG:Flume original generation 即Flume 0.9.x版本,它由agent、collector、master等组件构成。 2、Flume NG Flume NG:Flume next gen 阅读全文
posted @ 2016-11-30 10:07
大数据和AI躺过的坑
阅读(1452)
评论(0)
推荐(0)
摘要:
Flume 特点 1、可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。 Flume提供了三种级别的可靠性保障,从强到弱依次分别为: (1) end-to-end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。), (2) St 阅读全文
posted @ 2016-11-30 10:05
大数据和AI躺过的坑
阅读(6824)
评论(0)
推荐(0)
摘要:
Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 收集、聚合事件流数据的分布式框架通常用于log数据 采用ad-hoc方案,明显优点如下: 可靠的、可伸缩、可管理、 阅读全文
posted @ 2016-11-30 10:03
大数据和AI躺过的坑
阅读(1848)
评论(0)
推荐(0)
摘要:
下面我们结合 HDFS,介绍 Sqoop 从关系型数据库的导入和导出 一、MySQL里的数据通过Sqoop import HDFS 它的功能是将数据从关系型数据库导入 HDFS 中,其流程图如下所示。 我们来分析一下 Sqoop 数据导入流程,首先用户输入一个 Sqoop import 命令,Sqo 阅读全文
posted @ 2016-11-30 10:00
大数据和AI躺过的坑
阅读(7396)
评论(0)
推荐(2)
摘要:
Sqoop 架构是非常简单的,它主要由三个部分组成:Sqoop client、HDFS/HBase/Hive、Database。 下面是Sqoop 的架构图 (1)用户向 Sqoop 发起一个命令之后,这个命令会转换为一个基于 Map Task 的 MapReduce 作业。 (2)Map Task 阅读全文
posted @ 2016-11-30 09:37
大数据和AI躺过的坑
阅读(1626)
评论(0)
推荐(0)
摘要:
为什么选择 Sqoop? 通常基于三个方面的考虑: 1、它可以高效、可控地利用资源,可以通过调整任务数来控制任务的并发度。另外它还可以配置数据库的访问时间等等。 2、它可以自动的完成数据类型映射与转换。我们往往导入的数据是有类型的,它可以自动根据数据库中的类型转换到 Hadoop 中,当然用户也可以 阅读全文
posted @ 2016-11-30 09:25
大数据和AI躺过的坑
阅读(511)
评论(0)
推荐(0)
摘要:
Sqoop 是传统数据库与 Hadoop 之间数据同步的工具,它是 Hadoop 发展到一定程度的必然产物,它主要解决的是传统数据库和Hadoop之间数据的迁移问题。Sqoop 是连接传统关系型数据库和 Hadoop 的桥梁。它包括以下两个方面: 1、 将关系型数据库的数据导入到 Hadoop 及其 阅读全文
posted @ 2016-11-30 09:24
大数据和AI躺过的坑
阅读(1509)
评论(0)
推荐(0)
摘要:
Sqoop 的产生主要源于: 1、目前很多使用hadoop技术的企业,有大量的数据存储在传统关系型数据库中。 2、早期由于工具的缺乏,hadoop与传统数据库之间的数据传输非常困难。 1)传统数据库中的数据导入到hadoop中,便于廉价的分析与处理 2)hadoop中的数据导入传统数据库,可利用强大 阅读全文
posted @ 2016-11-30 09:18
大数据和AI躺过的坑
阅读(534)
评论(0)
推荐(0)
摘要:
简单来说,Ambari是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 欢迎大家,加入我的微信公众号:大数据躺过的坑 人工智能躺过的坑 同时,大家可以关注我的个人博客: h 阅读全文
posted @ 2016-11-30 09:13
大数据和AI躺过的坑
阅读(1274)
评论(0)
推荐(1)
摘要:
不多说,直接上干货! 1.什么是Ambari? 2.Ambari项目是由哪几部分构成的? 3.Ambari系统架构是如何组成的? 前言 Hadoop集群的管控一直是一个热门的话题,对于这样的一个应用场景,我所知道国内很早就有人研究并且取得不错的成绩,这就是EasyHadoop。它的功能主要有集群安装 阅读全文
posted @ 2016-11-30 09:09
大数据和AI躺过的坑
阅读(2450)
评论(0)
推荐(2)

浙公网安备 33010602011771号