随笔分类 -  ETL

Sqoop案例-脚本打包
摘要:脚本打包 使用opt格式的文件打包sqoop命令,然后执行 1) 创建一个.opt文件 $ mkdir opt $ touch opt/job_HDFS2RDBMS.opt 2) 编写sqoop脚本 $ vi opt/job_HDFS2RDBMS.opt export --connect jdbc: 阅读全文
posted @ 2020-09-14 15:34 架构艺术 阅读(194) 评论(0) 推荐(0)
Sqoop案例-导出:HIVE/HDFS到RDBMS
摘要:HIVE/HDFS到RDBMS $ bin/sqoop export \ --connect jdbc:mysql://linux01:3306/company \ --username root \ --password 123456 \ --table staff \ --num-mappers 阅读全文
posted @ 2020-09-14 15:33 架构艺术 阅读(178) 评论(0) 推荐(0)
Sqoop案例-导入:RDBMS到Hive
摘要:$ bin/sqoop import \ --connect jdbc:mysql://linux01:3306/company \ --username root \ --password 123456 \ --table staff \ --num-mappers 1 \ --hive-impo 阅读全文
posted @ 2020-09-14 15:29 架构艺术 阅读(141) 评论(0) 推荐(0)
Sqoop案例-导入:RDBMS到HDFS
摘要:Sqoop的简单使用案例 4.1.1、RDBMS到HDFS 1) 确定Mysql服务开启正常 2) 在Mysql中新建一张表并插入一些数据 $ mysql -uroot -p123456 mysql> create database company; mysql> create table comp 阅读全文
posted @ 2020-09-14 15:27 架构艺术 阅读(206) 评论(0) 推荐(0)
Sqoop原理基础与安装
摘要:一、Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。 最新的稳定版本是1.4.6。Sqoop2的最新版本是1.99.7。请注意, 阅读全文
posted @ 2020-09-14 15:23 架构艺术 阅读(240) 评论(0) 推荐(0)
DataX案例:读取MongoDB的数据导入MySQL
摘要:读取MongoDB的数据导入MySQL 1)在MySQL中创建表 mysql> create table jason(name varchar(20),url varchar(20)); 2)编写DataX配置文件 [jason@hadoop102 datax]$ vim job/mongodb2m 阅读全文
posted @ 2020-09-14 15:14 架构艺术 阅读(2929) 评论(1) 推荐(0)
DataX案例:读取MongoDB的数据导入到HDFS
摘要:读取MongoDB的数据导入到HDFS 1)编写配置文件 [jason@hadoop102 datax]$ vim job/mongdb2hdfs.json { "job": { "content": [ { "reader": { "name": "mongodbreader", "paramet 阅读全文
posted @ 2020-09-14 15:12 架构艺术 阅读(2560) 评论(0) 推荐(0)
DataX案例:读取Oracle的数据存入HDFS中
摘要:读取Oracle的数据存入HDFS中 1)编写配置文件 [oracle@hadoop102 datax]$ vim job/oracle2hdfs.json { "job": { "content": [ { "reader": { "name": "oraclereader", "paramete 阅读全文
posted @ 2020-09-14 15:10 架构艺术 阅读(859) 评论(0) 推荐(0)
DataX案例:从Oracle中读取数据存到MySQL
摘要:从Oracle中读取数据存到MySQL 1)MySQL中创建表 [oracle@hadoop102 ~]$ mysql -uroot -p000000 mysql> create database oracle; mysql> use oracle; mysql> create table stud 阅读全文
posted @ 2020-09-14 15:07 架构艺术 阅读(655) 评论(0) 推荐(0)
DataX案例:从stream流读取数据并打印到控制台
摘要:从stream流读取数据并打印到控制台 1)查看配置模板 [jason@hadoop102 bin]$ python datax.py -r streamreader -w streamwriter DataX (DATAX-OPENSOURCE-3.0), From Alibaba ! Copyr 阅读全文
posted @ 2020-09-14 10:29 架构艺术 阅读(2257) 评论(0) 推荐(0)
Flume拦截器-应用与配置
摘要:Flume最重要的组件是Source、Channel和Sink,另外,Flume Agent还有一些使Flume更加灵活的组件,如拦截器,Channel选择器,Sink组和Sink选择器。本文将讨论一下拦截器的应用。 拦截器 拦截器(Interceptor)是简单的插入式组件,设置在Source和S 阅读全文
posted @ 2020-09-09 10:34 架构艺术 阅读(442) 评论(0) 推荐(0)
自定义MySQLSource
摘要:自定义MySQLSource 1 自定义Source说明 Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generat 阅读全文
posted @ 2020-09-08 19:54 架构艺术 阅读(372) 评论(0) 推荐(0)
Flume案例:多数据源汇总案例
摘要:多数据源汇总案例 1) 案例需求: hadoop103上的flume-1监控文件hive.log, hadoop104上的flume-2监控某一个端口的数据流, flume-1与flume-2将数据发送给hadoop102上的flume-3,flume-3将最终数据打印到控制台 2)需求分析: 3) 阅读全文
posted @ 2020-09-08 19:29 架构艺术 阅读(394) 评论(0) 推荐(0)
Flume案例:2个案例单数据源多出口
摘要:一、单数据源多出口案例1 1)案例需求: 使用flume-1监控文件变动,flume-1将变动内容传递给flume-2,flume-2负责存储到HDFS。 同时flume-1将变动内容传递给flume-3,flume-3负责输出到local filesystem。 2)需求分析: 3)实现步骤: 0 阅读全文
posted @ 2020-09-08 18:08 架构艺术 阅读(435) 评论(0) 推荐(0)
Flume案例:目录文件到HDFS
摘要:实时读取目录文件到HDFS案例 1)案例需求:使用flume监听整个目录的文件 2)需求分析: 创建一个文件 [jason@hadoop102 job]$ vim flume-dir-hdfs.conf 添加如下内容 a3.sources = r3 #定义source a3.sinks = k3 # 阅读全文
posted @ 2020-09-08 15:03 架构艺术 阅读(256) 评论(0) 推荐(0)
Flume案例:本地文件到HDFS
摘要:1)案例需求:实时监控Hive日志,并上传到HDFS中 2)需求分析: 3)实现步骤: Flume要想将数据输出到HDFS,必须持有Hadoop相关jar包 将commons-configuration-1.6.jar、 hadoop-auth-2.7.2.jar、 hadoop-common-2. 阅读全文
posted @ 2020-09-08 14:22 架构艺术 阅读(208) 评论(0) 推荐(0)
Flume-基础
摘要:1、Flume概念 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume很多时候和storm以及spark streaming等流式处理框架结合使用。 Flume最主要的作用就是,实时读取服务器本地磁盘的数据 阅读全文
posted @ 2020-09-08 11:31 架构艺术 阅读(175) 评论(0) 推荐(0)
flume案例:netcat-console
摘要:flume案例:netcat-console Flume 1.8 1、一个hello world案例。 # example.conf: 一个单节点的 Flume 实例配置 # 配置Agent a1各个组件的名称 a1.sources = r1 #Agent a1 的source r1 a1.sink 阅读全文
posted @ 2020-09-02 17:42 架构艺术 阅读(302) 评论(0) 推荐(0)