随笔分类 - BigData
大数据方面的一些技术文章,hadoop、spark、HIVE、HBase、pig、flume、kafka相关的。
摘要:背景talend的源代码控制用的是gitlab,以前都是http方式的,但是最近突然改了https,所以talend登录失败,必须要SSL方式才能获取到分支等数据,才能提交代码。证书导入1、talend studio导入gitlab生成证书,证书一般这个可以从gitlab上下载并转换成base64格式的#导入命令如下:D:\talendworkspace\gitlab.cer换成你本地的地址key...
阅读全文
摘要:核心原理因为talend job build出来是一个可直接运行的程序,可以通过shell命名启动job进程,因此可以使用airflow的bashoperator调用生成好的talend job包里面的sh脚本,启动talend job。设计talend job任务本例子主要将一批数据同步到mysql表中导出talend job将设计好的talend job build到zip包。定义airflo...
阅读全文
摘要:该文是基于python虚拟化环境来安装,非虚拟化也是一样,虚拟化我只是不想破环系统环境。安装python虚拟环境pip install virtualenv设置环境变量sudo vi /etc/profile将如下内容添加到末尾export PYTHON_HOME=/usr/local/python3export PATH=$PATH:$PYTHON_HOME/binsource /etc/pro...
阅读全文
摘要:声明本文摘录了很多前辈的文章,原文如下:https://www.jianshu.com/p/2ecef979c606Airflow 简介Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控...
阅读全文

浙公网安备 33010602011771号