随笔分类 - 9.3.辅助系统
摘要:1.Sqoop的数据导出 将数据从HDFS导出到RDBMS数据库,导出前,目标表必须存在于目标数据库中 默认操作是将文件中的数据使用INSERT语句插入到表中 更新模式下,是生成UPDATE语句更新表数据 2.Sqoop的Export语法:$ sqoop export (generic-args)
阅读全文
摘要:3.Sqoop的数据导入 “导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文 本数据(或者Avro、sequence文件等二进制数据) 3.1语法 下面的语法用于将数据导入HDFS:$ sqoop import (generic-args)
阅读全文
摘要:3. sqoop数据迁移 3.1 概述 sqoop是apache旗下一款“Hadoop体系和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库; 3
阅读全文
摘要:HIVE脚本任务 hadoop fs -mkdir -p /aztest/hiveinput hadoop fs -put az.data /aztest/hiveinput/ l 创建job描述文件和hive脚本 Hive脚本: test.sql Job描述文件:hivef.job 2、将所有jo
阅读全文
摘要:MAPREDUCE任务 Mr任务依然可以使用command的job类型来执行 1、创建job描述文件,及mr程序jar包(示例中直接使用hadoop自带的example jar) 2、将所有job资源文件打到一个zip包中 3、在azkaban的web管理界面创建工程并上传zip包 4、启动job,
阅读全文
摘要:HDFS操作任务 1、创建job描述文件 2、将job资源文件打包成zip文件 3、通过Azkaban的web管理平台创建project并上传job压缩包 4、启动执行该job
阅读全文
摘要:1.Command类型多job工作流flow 1.创建有依赖关系的多个job描述:第一个job:foo.job 2.第二个job:bar.job 依赖 foo.job 3.将所有job资源文件打到一个zip包中: 4.在azkaban的web管理界面创建工程并上传zip包,然后启动工作流flow 相
阅读全文
摘要:1.Azkaban实战 Azkaba内置的任务类型支持command、java 2.Command类型单一job示例 1、创建job描述文件:vi command.job 2、将job资源文件打包成zip文件:zip command.job 3. 通过azkaban的web管理平台创建project
阅读全文
摘要:Azkaban介绍 Azkaban是一个Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。 Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有如下功能特点: Web用户界面
阅读全文
摘要:1.为什么需要工作流调度系统: 一个完整的数据分析系统通常由大量任务单元组成:shell脚本,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务
阅读全文
摘要:多级agent之间串联: 从tail命令获取数据发送到avro端口,另一个节点可配置一个avro源来获取数据,发送外部存储 启动两个Agent节点: 使用scp命令拷贝flume安装包到另一台虚拟机;scp -r /usr/local/src/flume/ shizhan3:$PWD 1.在shiz
阅读全文
摘要:采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs 根据需求,首先定义以下3大要素 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ 下沉目标,即sink——HDFS文件系统 : hdfs sink
阅读全文
摘要:采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 根据需求,首先定义以下3大要素 l.采集数据源,即source——监控文件目录 : spooldir 2.下沉目标,即sink——HDFS文件系统 : hdfs sink 3.source和sin
阅读全文
摘要:一.Flume的安装部署: Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 安装包的下载地址为:http://www-us.apache.org/dist/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz 1. 上传安装包到数据源所在节点
阅读全文
摘要:离线辅助系统概览: 1.概述: 在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、 任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 1.1 Flume介绍: Flume是一
阅读全文