Apache DolphinScheduler集成datax

DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

具体介绍这里不再赘述,官网和其他博客都很多:https://www.jianshu.com/p/f5f0dc99d5ab

1.下载datax安装包及部署步骤

官网:https://github.com/alibaba/DataX/blob/master/userGuid.md

这里结合centos7搭建dolphinscheduler集群说说dolphinscheduler集成datax,这里也很简单,datax安装目录和dolphinscheduler配置目录保持一致即可

 

 

 这里解压到/opt/soft/目录下

tar -zxvf datax.tar.gz -C /opt/soft/

2.在DolphinScheduler后台配置datax任务,这里以mysql数据源为例,mysql->mysql,这里演示数据由test1->test2->test3中,需要配置两个任务,第一个任务test1->test2,第二个任务test2->test3,第一个任务完成后执行第二个任务,数据流配置如下:

首先在数据源中心配置mysql数据源

 

 

 然后在项目管理里面创建数据流任务,在画布上拉去datax类型配置第一个任务,选择刚才配置的mysql数据源

 

 配置第二个任务

 

 3.数据流上线,并配置定时调度策略

 

 任务调度后执行成功:

 

 需要注意配置租户在worker机器上添加对应的user,window打包dolphinscheduler时脚本在Linux上执行一次可以看:windows打包脚本出现 /bin/sh^M: 坏的解释器: 没有那个文件或目录 错误

posted @ 2021-01-24 22:54  七星6609  阅读(7948)  评论(0编辑  收藏  举报