10.29

数据回填,主要基于数据的生产血缘,包括表依赖血缘、任务依赖血缘等。

该方案主要包括以下几个功能模块:

回填感知:通过查询、订阅信息、新版本发布触发自动感知分区缺失、版本变更消息,通过分区检查器、版本变更感知器确定回填日期范围;

回填编排:构建数据生产血缘,逐层解析表分区回填依赖,编排回填拓扑;

优化执行:依据回填拓扑和任务执行的元数据,将回填日期范围拆解为不同批次,系统化创建回填实例,通过并发协调器动态提交执行实例,运行完成后对结果进行校验并通知回填结果。

该方案的核心思路是充分挖掘数据生产消费血缘,依据血缘进行自动检查和确认,从而替代手工检查,提升回填效率;该项能力的依赖项是需要算子级的数据血缘能力。目前平台已经具备此能力,同时依据任务执行元数据进行多分区合并,并提交批次,大幅降低资源消耗,使用户从关注过程到仅关注结果,把更多的时间放在有价值的事情上。目前该方案正在建设中,预计今年 Q2 上线。

posted @ 2024-11-25 08:30  SDGVSBGDRH  阅读(29)  评论(0)    收藏  举报