大数据_搭建DATAX

1. 下载地址

下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
user_guid:https://github.com/alibaba/DataX/blob/master/userGuid.md

2. 创建用户

## 创建用户yarn,属于group yarn spark hive hadoop
usermod -a -G yarn yarn
usermod -a -G spark  yarn
usermod -a -G hive yarn
usermod -a -G hadoop yarn

3.解压文件

tar -zxvf /opt/datax/datax.tar.gz -C /opt/datax/

4. 修改owner

sudo chown -R yarn:yarn /opt/dolphinscheduler/

5. 启动自检脚本

cd /opt/datax/datax/bin/
python datax.py ../job/job.json 

6.tips

1. main] WARN  ConfigParser - 插件[streamreader,streamwriter]加载失败,1s后重试... Exception:Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/opt/datax/datax/plugin/writer/._rdbmswriter/plugin.json]不存在. 请检查您的配置文件. 

删除reader/writer下自带的隐藏文件
find /opt/datax/datax/plugin/writer/ -type f -name "._*er" | xargs rm -rf
find /opt/datax/datax/plugin/reader/ -type f -name "._*er" | xargs rm -rf
posted @ 2022-03-25 15:31  付十一。  阅读(144)  评论(0)    收藏  举报