随笔分类 - ApacheCN

摘要: Airflow Platform是用于描述,执行和监控工作流的工具。 核心理念 DAG的 在Airflow中, DAG (或定向非循环图)是您要运行的所有任务的集合,以反映其关系和依赖关系的方式进行组织。 例如,一个简单的DAG可以包含三个任务:A,B和C.可以说A必须在B可以运行之前成功运行,但C阅读全文
posted @ 2018-11-29 17:52 ApacheCN_飞龙 阅读(11) | 评论 (0) 编辑
摘要: 使用数据生产效率的一部分是拥有正确的武器来分析您正在使用的数据。 Airflow提供了一个简单的查询界面来编写SQL并快速获得结果,以及一个图表应用程序,可以让您可视化数据。 临时查询 adhoc查询UI允许与Airflow中注册的数据库连接进行简单的SQL交互。 https://airflow.a阅读全文
posted @ 2018-11-29 17:52 ApacheCN_飞龙 阅读(6) | 评论 (0) 编辑
摘要: 通过Airflow UI,您可以轻松监控数据管道并对其进行故障排除。 以下是您可以在Airflow UI中找到的一些功能和可视化的快速概述。 DAGs查看 您环境中的DAG列表,以及一组有用页面的快捷方式。 您可以一目了然地查看成功,失败或当前正在运行的任务数量。 https://airflow.a阅读全文
posted @ 2018-11-29 17:44 ApacheCN_飞龙 阅读(5) | 评论 (0) 编辑
摘要: Airflow具有一组固定的“测试模式”配置选项。 您可以随时通过调用airflow.configuration.load_test_config()来加载它们(注意此操作不可逆!)。 但是,在您有机会调用load_test_config()之前,会加载一些选项(如DAG_FOLDER)。 为了急切阅读全文
posted @ 2018-11-29 17:43 ApacheCN_飞龙 阅读(4) | 评论 (0) 编辑
摘要: Airflow可以与基于系统的系统集成。 这使得观察您的守护进程变得容易,因为systemd可以在失败时重新启动守护进程。 在scripts/systemd目录中,您可以找到已在基于Redhat的系统上测试过的单元文件。 您可以将它们复制到/usr/lib/systemd/system 。 假设Ai阅读全文
posted @ 2018-11-29 17:42 ApacheCN_飞龙 阅读(5) | 评论 (0) 编辑
摘要: Airflow可以与基于upstart的系统集成。 Upstart会在系统启动时自动启动/etc/init具有相应*.conf文件的所有气流服务。 失败时,upstart会自动重启进程(直到达到*.conf文件中设置的重新生成限制)。 您可以在scripts/upstart目录中找到示例新贵作业文件阅读全文
posted @ 2018-11-29 17:42 ApacheCN_飞龙 阅读(2) | 评论 (0) 编辑
摘要: 有两种方法可以将气流作为mesos框架运行: 任务直接在mesos从站上执行 MesosExecutor允许您在Mesos群集上安排气流任务。 为此,您需要一个正在运行的mesos集群,并且必须执行以下步骤 - 阅读全文/改进本文阅读全文
posted @ 2018-11-29 17:41 ApacheCN_飞龙 阅读(6) | 评论 (0) 编辑
摘要: 在本地编写日志 用户可以使用base_log_folder设置在airflow.cfg指定日志文件夹。 默认情况下,它位于AIRFLOW_HOME目录中。 此外,用户可以提供远程位置,以便在云存储中存储日志和日志备份。 在Airflow Web UI中,本地日志优先于远程日志。 如果找不到或访问本地阅读全文
posted @ 2018-11-29 17:40 ApacheCN_飞龙 阅读(11) | 评论 (0) 编辑
摘要: CeleryExecutor是您扩展工人数量的方法之一。 为此,您需要设置Celery后端( RabbitMQ , Redis ,...)并更改airflow.cfg以将执行程序参数指向CeleryExecutor并提供相关的Celery设置。 有关设置Celery代理的更多信息,请参阅有关该主题的阅读全文
posted @ 2018-11-29 17:40 ApacheCN_飞龙 阅读(6) | 评论 (0) 编辑
摘要: DaskExecutor允许您在Dask分布式群集中运行Airflow任务。 Dask集群可以在单个机器上运行,也可以在远程网络上运行。 有关完整详细信息,请参阅分布式文档 。 要创建集群,首先启动调度程序: 接下来,在任何可以连接到主机的计算机上启动至少一个Worker: 阅读全文/改进本文阅读全文
posted @ 2018-11-29 17:40 ApacheCN_飞龙 阅读(18) | 评论 (0) 编辑
摘要: 默认情况下,Airflow将在元数据数据库中以纯文本格式保存连接的密码。 在安装过程中强烈建议使用crypto包。 crypto包确实要求您的操作系统安装了libffi-dev。 如果最初未安装crypto软件包,您仍可以通过以下步骤为连接启用加密: 3.将airflow.cfg fernet_ke阅读全文
posted @ 2018-11-28 20:21 ApacheCN_飞龙 阅读(5) | 评论 (0) 编辑
摘要: 如果您想对Airflow进行真正的试驾,您应该考虑设置一个真正的数据库后端并切换到LocalExecutor。 由于Airflow是使用优秀的SqlAlchemy库与其元数据进行交互而构建的,因此您应该能够使用任何支持作为SqlAlchemy后端的数据库后端。 我们建议使用MySQL或Postgre阅读全文
posted @ 2018-11-28 20:20 ApacheCN_飞龙 阅读(3) | 评论 (0) 编辑
摘要: 操作器代表一个理想情况下是幂等的任务。 操作员确定DAG运行时实际执行的内容。 有关更多信息,请参阅Operators Concepts文档和Operators API Reference 。 BashOperator 模板 故障排除 找不到Jinja模板 PythonOperator 传递参数 模阅读全文
posted @ 2018-11-28 20:20 ApacheCN_飞龙 阅读(3) | 评论 (0) 编辑
摘要: Airflow需要知道如何连接到您的环境。 其他系统和服务的主机名,端口,登录名和密码等信息在UI的Admin->Connection部分中处理。 您将创作的管道代码将引用Connection对象的“conn_id”。 https://github.com/apachecn/airflow-d阅读全文
posted @ 2018-11-28 20:20 ApacheCN_飞龙 阅读(3) | 评论 (0) 编辑
摘要: 第一次运行Airflow时,它会在$AIRFLOW_HOME目录中创建一个名为airflow.cfg的文件(默认情况下为~/airflow $AIRFLOW_HOME )。 此文件包含Airflow的配置,您可以对其进行编辑以更改任何设置。 您还可以使用以下格式设置带有环境变量的选项: $AIRFL阅读全文
posted @ 2018-11-28 20:19 ApacheCN_飞龙 阅读(15) | 评论 (0) 编辑
摘要: 获得气流 安装最新稳定版Airflow的最简单方法是使用pip : 您还可以安装Airflow,支持s3或postgres等额外功能: 注意 GPL依赖 默认情况下,Apache Airflow的一个依赖项是拉入GPL库('unidecode')。 如果这是一个问题,您可以通过发出export SL阅读全文
posted @ 2018-11-28 20:18 ApacheCN_飞龙 阅读(6) | 评论 (0) 编辑
摘要: 本教程将向您介绍一些基本的Airflow概念,对象及其在编写第一个管道时的用法。 示例管道定义 以下是基本管道定义的示例。 如果这看起来很复杂,请不要担心,下面将逐行说明。 阅读全文/改进本文阅读全文
posted @ 2018-11-28 20:18 ApacheCN_飞龙 阅读(4) | 评论 (0) 编辑
摘要: 历史 Airflow于2014年10月由Airbnb的Maxime Beauchemin开始。 它是第一次提交的开源,并在2015年6月宣布正式加入Airbnb Github。 该项目于2016年3月加入了Apache Software Foundation的孵化计划。 提交者 @mistercru阅读全文
posted @ 2018-11-28 20:17 ApacheCN_飞龙 阅读(6) | 评论 (0) 编辑
摘要: 安装快速而直接。 阅读全文/改进本文阅读全文
posted @ 2018-11-28 20:17 ApacheCN_飞龙 阅读(10) | 评论 (0) 编辑
摘要: 仓库:https://github.com/apachecn/airflow-doc-zh 进度:https://github.com/apachecn/airflow-doc-zh/issues/1 贡献指南:https://github.com/apachecn/airflow-doc-zh/b阅读全文
posted @ 2018-11-27 21:07 ApacheCN_飞龙 阅读(3) | 评论 (0) 编辑
摘要: 首页地址:www.apachecn.org 关于我们:www.apachecn.org/about 我们不是 Apache 的官方组织/机构/团体,只是 Apache 技术栈(以及 AI)的爱好者! Java 基础 Java 编程思想 Java Web 和大数据 Spark 中文文档 Storm 中阅读全文
posted @ 2018-11-05 16:55 ApacheCN_飞龙 阅读(12) | 评论 (0) 编辑