DATAX
1、简介
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
开源地址:https://github.com/alibaba/DataX
设计架构

数据交换通过DataX进行中转,任何数据源只要和DataX连接上即可以和已实现的任意数据源同步。
框架结构

核心组件:
Reader:数据采集模块,负责从源采集数据
Writer:数据写入模块,负责写入目标库
Framework:数据传输通道,负责处理数据缓冲等
以上只需要重写Reader与Writer插件,即可实现新数据源支持
支持主流数据源,详见:https://github.com/alibaba/DataX/blob/master/introduction.md

Job:单个作业的管理节点,负责数据清理、子任务划分、TaskGroup监控管理
Task:由Job切分而来,是DataX作业的最小单元,每个Task负责一部分数据的同步工作
Schedule:将Task组成TaskGroup,单个TaskGroup的并发量为5
TaskGroup:负责启动Task
浙公网安备 33010602011771号