10.18
资源治理的手段主要包括存储治理和计算治理。其中存储治理包括表生命周期治理,无效表/相似表的识别与下线,转 EC、数据重分布与压缩等;计算治理包括无效任务识别与下线,低资源利用率任务治理,暴力扫描、高频失败任务治理等,以及计算算子和引擎的优化,还有计算任务错峰执行等。
各类优化治理的手段其实是相似的,但是如何让治理变得高效、安全、可持续,让用户“敢治、愿治”,是一件非常有挑战性的事情。因此我们的思路是对主动元数据进行充分挖掘,构建治理模型,并将治理可视化,让数据治理有依据有章法。
具体来讲,首先是元数据建设能力。元数据主要包括表分区存储、计算成本以及任务执行内存、CPU 利用率,分区访问等数据生产消费血缘,以及资产认证、任务等级、应用场景等元数据。在这些元数据的基础上,构建诸如智能生命周期推荐、模型识重、任务归属识别等模型,自动识别治理空间并给出相应治理建议。相比人工逐一评估,更高效客观,且可持续。最后建立了一套面向管理者、推动者、治理者的可视化看板,帮助用户看清资源分布以及治理成果、待解决问题等。在 23 年存算治理中超额完成了治理目标,同时该体系能够让整个治理活动持续的运营下去。

浙公网安备 33010602011771号