2016 年 11月 30 日随笔档案 - 大数据和AI躺过的坑

2016年11月30日

摘要：不多说，直接上干货！目前啊，都知道，大数据集群管理方式分为手工方式（Apache hadoop）和工具方式（Ambari + hdp 和Cloudera Manger + CDH）。手工部署呢，需配置太多参数，但是，好理解其原理，建议初学这样做，能学到很多。该方式啊，均得由用户执行，细节太多，切阅读全文

posted @ 2016-11-30 17:50 大数据和AI躺过的坑阅读(19100) 评论(0) 推荐(0)

Oozie安装部署

摘要：不多说，直接上干货！首先，大家先去看我这篇博客。对于Oozie的安装有一个全新的认识。 Oozie安装的说明我这里呢，本篇博文定位于手动来安装Oozie，同时避免Apache版本的繁琐编译安装，直接使用CDH版本，已经编译好的oozie-4.1.0-cdh5.5.4.tar.gz。如果，你要使阅读全文

posted @ 2016-11-30 16:40 大数据和AI躺过的坑阅读(5478) 评论(0) 推荐(0)

Oozie安装的说明

摘要：不多说，直接干货！ Oozie相当于Hadoop的一个客户端，因此集群中要有一台机器部署Oozie server端即可，由于可以有任意多个客户端连接Oozie，故每个客户端都必须部署Oozie client。比如我的机器有hadoopmaster、hadoopslave1、hadoopslave2 阅读全文

posted @ 2016-11-30 15:32 大数据和AI躺过的坑阅读(1969) 评论(0) 推荐(0)

Oozie的架构

摘要： Oozie的架构图，如下：从oozie的架构图中，可以看到所有的任务都是通过oozie生成相应的任务客户端，并通过任务客户端来提交相应的任务。继续。。。阅读全文

posted @ 2016-11-30 14:33 大数据和AI躺过的坑阅读(1149) 评论(0) 推荐(0)

Oozie的作用

摘要： Oozie的作用： 1、统一调度hadoop系统中常见的mr任务启动、 hdfs操作、 shell调度、 hive操作等 2、使得复杂的依赖关系、时间触发、事件触发使用xml语言进行表达，开发效率提高 3、一组任务使用一个DAG来表示，使用图形表达流程逻辑更加清晰 4、支持很多种任务调度，能完成大部阅读全文

posted @ 2016-11-30 14:30 大数据和AI躺过的坑阅读(3097) 评论(1) 推荐(1)

Oozie是什么？

摘要：但是，一般用Azkaban了。（具体见我写的另一篇博客：）官网：https://oozie.apache.org/ Oozie is a workflow scheduler system to manage Apache Hadoop jobs. Oozie Workflow jobs are 阅读全文

posted @ 2016-11-30 14:28 大数据和AI躺过的坑阅读(36161) 评论(0) 推荐(2)

Flume NG基本架构与Flume NG核心概念

摘要：导读 Flume NG是一个分布式、可靠、可用的系统，它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG，进行了架构重构，并且现在NG版本完全不兼容原来的OG版本！！！经过架构重构后，Flume NG更像阅读全文

posted @ 2016-11-30 10:14 大数据和AI躺过的坑阅读(2862) 评论(0) 推荐(0)

Flume OG 与 Flume NG 的对比

摘要： Flume OG 与 Flume NG 的对比 1、Flume OG Flume OG：Flume original generation 即Flume 0.9.x版本，它由agent、collector、master等组件构成。 2、Flume NG Flume NG：Flume next gen 阅读全文

posted @ 2016-11-30 10:07 大数据和AI躺过的坑阅读(1459) 评论(0) 推荐(0)

Flume特点

摘要： Flume 特点 1、可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。 Flume提供了三种级别的可靠性保障，从强到弱依次分别为： (1) end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。）， (2) St 阅读全文

posted @ 2016-11-30 10:05 大数据和AI躺过的坑阅读(6827) 评论(0) 推荐(0)

Flume 是什么？

摘要： Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。收集、聚合事件流数据的分布式框架通常用于log数据采用ad-hoc方案，明显优点如下：可靠的、可伸缩、可管理、阅读全文

posted @ 2016-11-30 10:03 大数据和AI躺过的坑阅读(1850) 评论(0) 推荐(0)

（MySQL里的数据）通过Sqoop Import HDFS 里和通过Sqoop Export HDFS 里的数据到（MySQL）（五）

摘要：下面我们结合 HDFS，介绍 Sqoop 从关系型数据库的导入和导出一、MySQL里的数据通过Sqoop import HDFS 它的功能是将数据从关系型数据库导入 HDFS 中，其流程图如下所示。我们来分析一下 Sqoop 数据导入流程，首先用户输入一个 Sqoop import 命令，Sqo 阅读全文

posted @ 2016-11-30 10:00 大数据和AI躺过的坑阅读(7405) 评论(0) 推荐(2)

Sqoop架构（四）

摘要： Sqoop 架构是非常简单的，它主要由三个部分组成：Sqoop client、HDFS/HBase/Hive、Database。下面是Sqoop 的架构图（1）用户向 Sqoop 发起一个命令之后，这个命令会转换为一个基于 Map Task 的 MapReduce 作业。（2）Map Task 阅读全文

posted @ 2016-11-30 09:37 大数据和AI躺过的坑阅读(1675) 评论(0) 推荐(0)

为什么选择Sqoop？（三）

摘要：为什么选择 Sqoop？通常基于三个方面的考虑： 1、它可以高效、可控地利用资源，可以通过调整任务数来控制任务的并发度。另外它还可以配置数据库的访问时间等等。 2、它可以自动的完成数据类型映射与转换。我们往往导入的数据是有类型的，它可以自动根据数据库中的类型转换到 Hadoop 中，当然用户也可以阅读全文

posted @ 2016-11-30 09:25 大数据和AI躺过的坑阅读(512) 评论(0) 推荐(0)

Sqoop 是什么？（二）

摘要： Sqoop 是传统数据库与 Hadoop 之间数据同步的工具，它是 Hadoop 发展到一定程度的必然产物，它主要解决的是传统数据库和Hadoop之间数据的迁移问题。Sqoop 是连接传统关系型数据库和 Hadoop 的桥梁。它包括以下两个方面： 1、将关系型数据库的数据导入到 Hadoop 及其阅读全文

posted @ 2016-11-30 09:24 大数据和AI躺过的坑阅读(1516) 评论(0) 推荐(0)

Sqoop 产生背景（一）

摘要： Sqoop 的产生主要源于： 1、目前很多使用hadoop技术的企业，有大量的数据存储在传统关系型数据库中。 2、早期由于工具的缺乏，hadoop与传统数据库之间的数据传输非常困难。 1）传统数据库中的数据导入到hadoop中，便于廉价的分析与处理 2）hadoop中的数据导入传统数据库，可利用强大阅读全文

posted @ 2016-11-30 09:18 大数据和AI躺过的坑阅读(537) 评论(0) 推荐(0)

Ambari是啥？主要是干啥的？

摘要：简单来说，Ambari是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具（软件）,使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。欢迎大家，加入我的微信公众号：大数据躺过的坑人工智能躺过的坑同时，大家可以关注我的个人博客： h 阅读全文

posted @ 2016-11-30 09:13 大数据和AI躺过的坑阅读(1281) 评论(0) 推荐(1)

Ambari架构及安装

摘要：不多说，直接上干货！ 1.什么是Ambari? 2.Ambari项目是由哪几部分构成的？ 3.Ambari系统架构是如何组成的？前言 Hadoop集群的管控一直是一个热门的话题，对于这样的一个应用场景，我所知道国内很早就有人研究并且取得不错的成绩，这就是EasyHadoop。它的功能主要有集群安装阅读全文

posted @ 2016-11-30 09:09 大数据和AI躺过的坑阅读(2453) 评论(0) 推荐(2)

大数据和人工智能躺过的坑

公告