posted @ 2026-05-08 11:07 飞行的蟒蛇 阅读(7) 评论(0) 推荐(0)
摘要:
完整代码实现,等两个数据域跑完 触发下一个任务 第一步:在数据域 DAG 中定义“产出” 你需要在两个数据域的最后一个任务中增加一个 outlets 声明。 数据域 A (dag_sales.py): Python from airflow import DAG, Dataset from airf 阅读全文
摘要:
from airflow import DAG from airflow.operators.bash import BashOperator from datetime import datetime, timedelta import pendulum # 引入时区库 # 配置 DataX 路径 阅读全文
posted @ 2026-05-08 10:57 飞行的蟒蛇 阅读(7) 评论(0) 推荐(0)
摘要:
# CLAUDE.md Behavioral guidelines to reduce common LLM coding mistakes. Merge with project-specific instructions as needed. **Tradeoff:** These guidel 阅读全文
posted @ 2026-05-08 10:32 飞行的蟒蛇 阅读(11) 评论(0) 推荐(0)
摘要:
{ "job": { "setting": { "speed": { "channel": 1, "byte": 1048576 }, "errorLimit": { "record": 0, "percentage": 0.02 } }, "content": [ { "reader": { "n 阅读全文
posted @ 2026-04-21 11:26 飞行的蟒蛇 阅读(7) 评论(0) 推荐(0)
摘要:
在构建离线数仓时,MySQL 到 Hive ODS 层的同步往往面临两个痛点: 性能瓶颈:使用 ROW_NUMBER() 全量去重,在大数据量下会导致严重的 Shuffle 和排序开销。 数据漂移:当业务日期(分区键)被修改时,简单的增量覆盖会导致旧分区残留“幽灵数据”,造成数据重复。 本文分享一种 阅读全文
posted @ 2026-04-14 15:43 飞行的蟒蛇 阅读(19) 评论(0) 推荐(0)
摘要:
-- 1. 基础环境配置SET 'execution.runtime-mode' = 'streaming'; -- 建议设为流模式,实时触发更新SET 'execution.checkpointing.interval' = '30s'; -- Hudi 必须开启 Checkpoint 才能提交数 阅读全文
posted @ 2026-04-08 09:11 飞行的蟒蛇 阅读(4) 评论(0) 推荐(0)
摘要:
package com.atguigu.flink; import com.ververica.cdc.connectors.mysql.source.MySqlSource; import com.ververica.cdc.connectors.mysql.table.StartupOption 阅读全文
posted @ 2026-04-08 09:01 飞行的蟒蛇 阅读(11) 评论(0) 推荐(0)
摘要:
1️⃣ 问题分析 现状风险 重复依赖 如果 50 个 DWD 分别在工作流里单独依赖 ODS 抽取,会导致同一 ODS 表被重复触发或检查。 这样既浪费调度时间,也增加资源占用。 执行效率低 ODS 抽取量大(100 张表),如果每个 DWD 流都等完全部 ODS 才跑,会出现长尾阻塞。 维护成本高 阅读全文
posted @ 2026-04-03 11:03 飞行的蟒蛇 阅读(14) 评论(0) 推荐(0)
摘要:
1️⃣ 依赖配置文件(YAML) 先准备一个 wf_dependency.yaml: domains: TRA: ODS: ["WF_ODS_TRA_DA"] DWD: ["WF_DWD_TRA_DA"] DIM: ["WF_DIM_PRD_DA", "WF_DIM_USR_DA"] ADS: [" 阅读全文
posted @ 2026-04-03 10:55 飞行的蟒蛇 阅读(15) 评论(0) 推荐(0)
浙公网安备 33010602011771号