DATAX

1、简介

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

开源地址https://github.com/alibaba/DataX

设计架构

 

数据交换通过DataX进行中转,任何数据源只要和DataX连接上即可以和已实现的任意数据源同步。

框架结构

 

核心组件:

    Reader:数据采集模块,负责从源采集数据

    Writer:数据写入模块,负责写入目标库

    Framework:数据传输通道,负责处理数据缓冲等

    以上只需要重写Reader与Writer插件,即可实现新数据源支持

支持主流数据源,详见:https://github.com/alibaba/DataX/blob/master/introduction.md

 

 

 

 

Job:单个作业的管理节点,负责数据清理、子任务划分、TaskGroup监控管理

Task:由Job切分而来,是DataX作业的最小单元,每个Task负责一部分数据的同步工作

Schedule:将Task组成TaskGroup,单个TaskGroup的并发量为5

TaskGroup:负责启动Task

posted on 2022-03-31 11:45  irongzone  阅读(108)  评论(0)    收藏  举报