Data4Strategy

——合抱之木,生于毫末;九层之台,起于累土

随笔分类 -  BigData

大数据方面的一些技术文章,hadoop、spark、HIVE、HBase、pig、flume、kafka相关的。
摘要:背景talend的源代码控制用的是gitlab,以前都是http方式的,但是最近突然改了https,所以talend登录失败,必须要SSL方式才能获取到分支等数据,才能提交代码。证书导入1、talend studio导入gitlab生成证书,证书一般这个可以从gitlab上下载并转换成base64格式的#导入命令如下:D:\talendworkspace\gitlab.cer换成你本地的地址key... 阅读全文
posted @ 2019-12-18 18:59 John.Xiong 阅读(572) 评论(0) 推荐(0)
摘要:核心原理因为talend job build出来是一个可直接运行的程序,可以通过shell命名启动job进程,因此可以使用airflow的bashoperator调用生成好的talend job包里面的sh脚本,启动talend job。设计talend job任务本例子主要将一批数据同步到mysql表中导出talend job将设计好的talend job build到zip包。定义airflo... 阅读全文
posted @ 2019-12-03 18:04 John.Xiong 阅读(691) 评论(0) 推荐(0)
摘要:该文是基于python虚拟化环境来安装,非虚拟化也是一样,虚拟化我只是不想破环系统环境。安装python虚拟环境pip install virtualenv设置环境变量sudo vi /etc/profile将如下内容添加到末尾export PYTHON_HOME=/usr/local/python3export PATH=$PATH:$PYTHON_HOME/binsource /etc/pro... 阅读全文
posted @ 2019-11-11 16:35 John.Xiong 阅读(855) 评论(0) 推荐(0)
摘要:声明本文摘录了很多前辈的文章,原文如下:https://www.jianshu.com/p/2ecef979c606Airflow 简介Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控... 阅读全文
posted @ 2019-11-11 16:12 John.Xiong 阅读(11566) 评论(2) 推荐(1)