百里登风

导航

上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 36 下一页

2020年8月14日

通过Dockerfile部署airflow容器

摘要: 部署airflow容器讲究轻量化 分三个模块 1、部署airflow 2、安装rest-api插件 3、设置airflow的时钟与系统时钟同步 先拉取一个airflow的基础镜像 rest-api插件的安装包下载到本地服务器,详情可以参考 https://www.cnblogs.com/bravey 阅读全文

posted @ 2020-08-14 17:46 百里登峰 阅读(756) 评论(0) 推荐(0)

2020年8月2日

4.DBus学习-1

摘要: 1、什么是DBus DBus(数据总线)项目为了统一数据采集需求而生, 专注于数据的收集及实时数据流计算,通过简单灵活的配置,以无侵入的方式对源端数据进行采集,采用高可用的流式计算框架,对公司各个IT系统在业务流程中产生的数据进行汇聚,经过转换处理后成为统一JSON的数据格式(UMS),提供给不同数 阅读全文

posted @ 2020-08-02 17:20 百里登峰 阅读(599) 评论(0) 推荐(0)

2020年6月25日

3.kafka学习

摘要: kafka是什么Kafka最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的,发布/订阅模式的消息队列(Message Queue),Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。经过多年发展,Kafka已经由最初的日志 阅读全文

posted @ 2020-06-25 01:14 百里登峰 阅读(231) 评论(0) 推荐(0)

2020年6月13日

2.HBase相关学习

摘要: 1.HBase shell操作 hbase shell 查看版本 version 查看服务状态 status 查看有哪些表 list 创建表 create 'students','info' list 查看表结构 describe 'students' 插入数据 put 'students','10 阅读全文

posted @ 2020-06-13 16:20 百里登峰 阅读(225) 评论(0) 推荐(0)

2020年6月2日

airflow HiveOperator实例

摘要: 此实例的测试环境是airflow部署在服务器而不是部署在容器 hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任 务进行运行。在 airflow 中调用 hive 任务,首 阅读全文

posted @ 2020-06-02 14:53 百里登峰 阅读(2280) 评论(0) 推荐(0)

2020年4月17日

1.基于HDP大数据环境的搭建

摘要: 版本规划 安装VirtualBox 然后直接一路下一步 选择一下安装路径 这时VirtualBox会自动运行,主界面如下 : 安装VirtualBox Extension Pack VirtualBox的一些高级特性依赖于VirtualBox Extension Pack,接下来我们安装它。在Vir 阅读全文

posted @ 2020-04-17 00:14 百里登峰 阅读(1275) 评论(1) 推荐(2)

2020年4月10日

AirFlow性能调优

摘要: 修改 airflow.cfg 配置 不加载example dag load_examples = False # 这个配置只有在第一次启动airflow之前设置才有效 修改检测新dag间隔 最好还是修改一下,因为默认为0,没有时间间隔, 很耗资源。 min_file_process_interval 阅读全文

posted @ 2020-04-10 12:06 百里登峰 阅读(5173) 评论(2) 推荐(1)

AirFlow通过账号密码➕角色权限控制来登陆

摘要: 在 airflow.cfg 文件中 [webserver] 下添加如下配置 [webserver] security = Flask AppBuilder secure_mode = True rbac=True 注意:如果在[webserver]里面有 authenticate 和 auth_ba 阅读全文

posted @ 2020-04-10 10:44 百里登峰 阅读(3696) 评论(1) 推荐(0)

通过Supervisor管理airflow的webserver进程和scheduler进程

摘要: 我的airflow部署在容器中,首先我们需要安装Supervisord工具 easy_install supervisor //部署在服务器上的安装命令 apt-get install supervisor //部署在容器中的安装命令 在容器的目录下我们可以看到多了两个文件 编辑文件supervis 阅读全文

posted @ 2020-04-10 10:31 百里登峰 阅读(1451) 评论(0) 推荐(0)

2020年4月9日

配置AirFlow系统时钟与宿主进同步

摘要: Airflow自带的时区是UTC时区,通常跟当前的环境时区不一样,因此我们需要对时区进行修改。 1、修改airflow的配置文件airflow.cfg default_timezone = Asia/Shanghai 2、进入airflow包的安装位置,也就是site-packages的位置,由于我 阅读全文

posted @ 2020-04-09 09:49 百里登峰 阅读(1156) 评论(0) 推荐(0)

上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 36 下一页