摘要:
1.Command类型多job工作流flow 1.创建有依赖关系的多个job描述:第一个job:foo.job 2.第二个job:bar.job 依赖 foo.job 3.将所有job资源文件打到一个zip包中: 4.在azkaban的web管理界面创建工程并上传zip包,然后启动工作流flow 相 阅读全文
posted @ 2018-07-16 17:17
QueryMarsBo
阅读(1012)
评论(0)
推荐(0)
摘要:
1.Azkaban实战 Azkaba内置的任务类型支持command、java 2.Command类型单一job示例 1、创建job描述文件:vi command.job 2、将job资源文件打包成zip文件:zip command.job 3. 通过azkaban的web管理平台创建project 阅读全文
posted @ 2018-07-16 16:26
QueryMarsBo
阅读(309)
评论(0)
推荐(0)
摘要:
Azkaban介绍 Azkaban是一个Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。 Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有如下功能特点: Web用户界面 阅读全文
posted @ 2018-07-16 16:23
QueryMarsBo
阅读(377)
评论(0)
推荐(0)
摘要:
1.为什么需要工作流调度系统: 一个完整的数据分析系统通常由大量任务单元组成:shell脚本,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务 阅读全文
posted @ 2018-07-16 13:34
QueryMarsBo
阅读(165)
评论(0)
推荐(0)
摘要:
多级agent之间串联: 从tail命令获取数据发送到avro端口,另一个节点可配置一个avro源来获取数据,发送外部存储 启动两个Agent节点: 使用scp命令拷贝flume安装包到另一台虚拟机;scp -r /usr/local/src/flume/ shizhan3:$PWD 1.在shiz 阅读全文
posted @ 2018-07-16 13:08
QueryMarsBo
阅读(794)
评论(0)
推荐(0)
摘要:
采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs 根据需求,首先定义以下3大要素 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ 下沉目标,即sink——HDFS文件系统 : hdfs sink 阅读全文
posted @ 2018-07-16 10:20
QueryMarsBo
阅读(517)
评论(0)
推荐(0)

浙公网安备 33010602011771号