随笔分类 - 数据仓库
-
SQL 时间范围和时间粒度
摘要:大多数情况下,我们需要根据计算时间和时间范围,计算出业务数据的开始时间和结束时间,用于过滤业务数据;然后再根据业务数据的业务时间和时间粒度,计算出业务时间点,用于分组统计业务数据。 阅读全文
-
微博数仓数据延时优化方案
摘要:前言 本文以离线数据仓库为背景,重点介绍因传输链路数据延时的不确定性,可能导致部分延迟文件无法参与正常的调度计算或同步,导致数据缺失的问题成因、业务影响及相应的解决方案。 关于这类问题的处理,有这么一种论调:我们认为正常情况下,脏 或 缺失 数据的比例是很小的,可以大致认为数据是可用的的;或者我们可 阅读全文
浙公网安备 33010602011771号