摘要: Airflow Platform是用于描述,执行和监控工作流的工具。 核心理念 DAG的 在Airflow中, DAG (或定向非循环图)是您要运行的所有任务的集合,以反映其关系和依赖关系的方式进行组织。 例如,一个简单的DAG可以包含三个任务:A,B和C.可以说A必须在B可以运行之前成功运行,但C 阅读全文
posted @ 2018-11-29 17:52 ApacheCN_飞龙 阅读(1234) 评论(1) 推荐(0)
摘要: 通过Airflow UI,您可以轻松监控数据管道并对其进行故障排除。 以下是您可以在Airflow UI中找到的一些功能和可视化的快速概述。 DAGs查看 您环境中的DAG列表,以及一组有用页面的快捷方式。 您可以一目了然地查看成功,失败或当前正在运行的任务数量。 https://airflow.a 阅读全文
posted @ 2018-11-29 17:44 ApacheCN_飞龙 阅读(796) 评论(0) 推荐(0)
摘要: Airflow具有一组固定的“测试模式”配置选项。 您可以随时通过调用airflow.configuration.load_test_config()来加载它们(注意此操作不可逆!)。 但是,在您有机会调用load_test_config()之前,会加载一些选项(如DAG_FOLDER)。 为了急切 阅读全文
posted @ 2018-11-29 17:43 ApacheCN_飞龙 阅读(995) 评论(0) 推荐(0)
摘要: Airflow可以与基于系统的系统集成。 这使得观察您的守护进程变得容易,因为systemd可以在失败时重新启动守护进程。 在scripts/systemd目录中,您可以找到已在基于Redhat的系统上测试过的单元文件。 您可以将它们复制到/usr/lib/systemd/system 。 假设Ai 阅读全文
posted @ 2018-11-29 17:42 ApacheCN_飞龙 阅读(815) 评论(0) 推荐(0)
摘要: Airflow可以与基于upstart的系统集成。 Upstart会在系统启动时自动启动/etc/init具有相应*.conf文件的所有气流服务。 失败时,upstart会自动重启进程(直到达到*.conf文件中设置的重新生成限制)。 您可以在scripts/upstart目录中找到示例新贵作业文件 阅读全文
posted @ 2018-11-29 17:42 ApacheCN_飞龙 阅读(864) 评论(0) 推荐(0)
摘要: 有两种方法可以将气流作为mesos框架运行: 任务直接在mesos从站上执行 MesosExecutor允许您在Mesos群集上安排气流任务。 为此,您需要一个正在运行的mesos集群,并且必须执行以下步骤 - 阅读全文/改进本文 阅读全文
posted @ 2018-11-29 17:41 ApacheCN_飞龙 阅读(860) 评论(0) 推荐(0)
摘要: 在本地编写日志 用户可以使用base_log_folder设置在airflow.cfg指定日志文件夹。 默认情况下,它位于AIRFLOW_HOME目录中。 此外,用户可以提供远程位置,以便在云存储中存储日志和日志备份。 在Airflow Web UI中,本地日志优先于远程日志。 如果找不到或访问本地 阅读全文
posted @ 2018-11-29 17:40 ApacheCN_飞龙 阅读(922) 评论(0) 推荐(0)
摘要: CeleryExecutor是您扩展工人数量的方法之一。 为此,您需要设置Celery后端( RabbitMQ , Redis ,...)并更改airflow.cfg以将执行程序参数指向CeleryExecutor并提供相关的Celery设置。 有关设置Celery代理的更多信息,请参阅有关该主题的 阅读全文
posted @ 2018-11-29 17:40 ApacheCN_飞龙 阅读(885) 评论(0) 推荐(0)
摘要: DaskExecutor允许您在Dask分布式群集中运行Airflow任务。 Dask集群可以在单个机器上运行,也可以在远程网络上运行。 有关完整详细信息,请参阅分布式文档 。 要创建集群,首先启动调度程序: 接下来,在任何可以连接到主机的计算机上启动至少一个Worker: 阅读全文/改进本文 阅读全文
posted @ 2018-11-29 17:40 ApacheCN_飞龙 阅读(1013) 评论(0) 推荐(0)