ETL及常用工具简介

Posted on 2021-06-14 20:38  MissRong  阅读(2902)  评论(0)    收藏  举报

ETL及常用工具简介

ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的缩写.

一、主流的数据同步工具

1、离线

Kettle、Sqoop、DataX

2、实时

Kafka、Flume、OGG

二、Kettle

Kettle是一款国外开源的ETL工具,纯 Java 编写,数据抽取高效,对各种数据源的支持比较好。

跨平台,Window、Linux、Unix都可以运行。

绿色无需安装,解压即可。

提供一个图形化的界面,用来设计数据流控制以及转换。

三、Sqoop

Sqoop是一款开源的工具,主要用于在HDFS和传统数据库间进行高效的数据传递。

Hadoop生态自带,

关系型数据库数据导入到HDFS,

HDFS的数据导出到关系型数据库。

四、DataX

DataX是淘宝开源的数据交换工具,采用框架+插件结构。

框架相当于数据中转平台,插件则为不同类型的数据提供实现。

Reader:Reader负责从数据源端读取数据到交换空间,

                比如 hdfsreader、mysqlreader.

Writer: 负责将交换空间中的数据写入到数据目的端,

            比如 hdfswriter、sqlserverwriter

 

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3