随笔分类 -  bigdata

摘要:本文上接《Azkaban Flow 2.0 使用简介》,对Azkaban Condition Flow (条件工作流) 做简单介绍目录目录条件工作流 介绍作用使用方式支持的运算符支持的预定义宏一些有效的条件 举例条件工作流 实例附录官方文档例子源码条件工作流 介绍作用条件工作流,允许用户根据条件指定是否运行某些作业使用方式用户可以根据运行时参数(如先前作业的输出)运行或禁用某些作业Azkaban提... 阅读全文
posted @ 2019-07-15 16:42 remainsu 阅读(2518) 评论(0) 推荐(0)
摘要:本文上接《Azkaban 3.73.1 使用简介》,对Azkaban使用Flow 2.0来创建工作流做简单说明声明:官方建议使用Flow 2.0来创建Azkaban工作流,且Flow 1.0将被弃用目录目录一、简单的Flow1. 新建 flow20.project 文件2. 新建 .flow 文件3. 打包4. 创建Project & 上传zip & 运行Flow二、Job间有依赖关系的Flow三... 阅读全文
posted @ 2019-07-11 14:16 remainsu 阅读(4890) 评论(0) 推荐(0)
摘要:本文上接《Azkaban 3.73.1 集群搭建(Multiple Executor)》,对Azkaban的使用做简单说明目录目录简介1. 登录2. 创建工程3. 创建job3.1 创建 .job 文件3.2 打包3.3 创建Flow3.4 运行Flow附录参考例子源码简介AzkabanWebServer中的三个主要元素:project、job、flowproject:工程/项目job:任务,pr... 阅读全文
posted @ 2019-07-10 11:46 remainsu 阅读(2234) 评论(0) 推荐(0)
摘要:目录目录一、简介二、前置准备1. 服务分布2. 安装 jdk3. 配置 mysql三、集群部署1. 下载源码 & 解压2. 安装所需依赖3. 执行编译4. 编译后的主要目录:5. 拷贝我们所需的文件并解压四、集群配置1. 配置 WebServer1.1 配置 jetty SSL1.2 修改conf/azkaban.properties1.3 配置conf/azkaban-users.xml1.4 ... 阅读全文
posted @ 2019-07-09 18:52 remainsu 阅读(1495) 评论(0) 推荐(0)
摘要:注意权限,不建议使用root,同es集群的启动用户相同即可1. 下载 & 解压# 下载wget https://github.com/lmenezes/cerebro/releases/download/v0.8.3/cerebro-0.8.3.zip# 解压unzip cerebro-0.8.3.zip# 软链ln -s cerebro-0.8.3 cerebro2. 配置什么都不配置,直接启动... 阅读全文
posted @ 2019-07-08 11:19 remainsu 阅读(4744) 评论(1) 推荐(0)
摘要:1. 下载 & 解压# 下载wget https://artifacts.elastic.co/downloads/kibana/kibana-7.1.1-linux-x86_64.tar.gz# 解压tar xvf kibana-7.1.1-linux-x86_64.tar.gz# 软链ln -s kibana-7.1.1-linux-x86_64 kibana2. 配置 kibana.ymlv... 阅读全文
posted @ 2019-07-05 14:33 remainsu 阅读(6871) 评论(0) 推荐(0)
摘要:1. 下载 & 解压# 下载wget https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-7.1.1-linux-x86_64.tar.gz# 解压tar xvf filebeat-7.1.1-linux-x86_64.tar.gz# 软链ln -s filebeat-7.1.1-linux-x86_64 filebeat2... 阅读全文
posted @ 2019-07-05 10:31 remainsu 阅读(4962) 评论(0) 推荐(0)
摘要:1. 安装nodejshead插件需要nodejs环境,所以先安装node,可以直接只用yum安装,但版本较低,建议使用更高版本,方式如下:1.1 下载 & 解压# 下载,选择 Linux Binaries (x64)wget https://nodejs.org/dist/v10.16.0/node-v10.16.0-linux-x64.tar.xz# 解压,xz -d 如果报错,请切换到roo... 阅读全文
posted @ 2019-07-04 14:14 remainsu 阅读(621) 评论(0) 推荐(0)
摘要:1. 集群简介三台机器,均用于保存数据且可被选为master节点服务版本服务版本elasticsearch7.1.1jdk1.81. 创建elsearch用户不建议直接使用root用户,所以此处新建 elsearch用户1.1 添加用户组及用户,配置密码# 添加用户组groupadd elsearch# 添加用户useradd -m -g elsearch elsearch# 配置密码passwd... 阅读全文
posted @ 2019-07-04 12:05 remainsu 阅读(4776) 评论(0) 推荐(0)
摘要:使用python连接es并执行最基本的查询from elasticsearch import Elasticsearches = Elasticsearch(["localhost:9200"])para = {"_source":"message"}es.search(index=index_name, q='offset: xx', doc_type='doc' ,params=para, s... 阅读全文
posted @ 2019-06-20 23:24 remainsu 阅读(874) 评论(2) 推荐(0)
摘要:import datetimeimport sysimport getoptimport hashlibfrom elasticsearch import Elasticsearch"""初始化elasticsearch连接"""def init_es(): return Elasticsearch(["localhost:9200"])"""查询数据, 支持分页"""def query_d... 阅读全文
posted @ 2019-06-20 23:24 remainsu 阅读(235) 评论(0) 推荐(0)
摘要:这里使用filebeat直连elasticsearch的形式完成数据传输,由于没有logstash,所有对于原始数据的过滤略显尴尬(logstash的filter非常强大)。 但是由于业务需求,还是需要将message(原始数据)中的某些字段进行提取,具体方式如下:1. /path/目录下建立pipeline.json文件{ "description" : "test-pipeline", "... 阅读全文
posted @ 2019-06-20 23:19 remainsu 阅读(983) 评论(0) 推荐(0)
摘要:概述Apache Flume是一个分布式,可靠且可用的系统,用于有效地从许多不同的source收集,聚合和移动大量日志数据到集中式数据存储。Apache Flume的使用不仅限于日志数据聚合。由于数据source是可定制的,因此Flume可用于传输大量event 数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎任何可能的数据source。Apache Flume是Apach... 阅读全文
posted @ 2019-06-20 23:04 remainsu 阅读(1491) 评论(0) 推荐(0)
摘要:1. GROUPING SETSGROUPING SETS作为GROUP BY的子句,允许开发人员在GROUP BY语句后面指定多个统维度,可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起来。为方便理解,以testdb.test_1为例:hive> use testdb;hive> desc test_1;user_id string i... 阅读全文
posted @ 2019-06-20 18:37 remainsu 阅读(3792) 评论(0) 推荐(0)
摘要:test_a 表idvalue1java2python3c++test_b 表idvalue1java2go3php4c++1. join计算的是笛卡尔积,不推荐使用select * from test_a join test_b on test_a.value = test_b.value;查询结果: java java c++ c++ 2. left outer join & right... 阅读全文
posted @ 2019-06-20 18:36 remainsu 阅读(671) 评论(0) 推荐(0)
摘要:1. 下载 & 解压# 下载wget https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.220/presto-server-0.220.tar.gz# 移动到要安装目录mv presto-server-0.220.tar.gz /opt/# 解压tar zxvf presto-server-0.220.tar.gz... 阅读全文
posted @ 2019-06-20 18:31 remainsu 阅读(513) 评论(0) 推荐(1)