一个解决方案就是提高数据加载频率从而实现近实时的更新。周级别的数据加载可以提升到天级别，天级别可以提升到一天两次，相比实时更新，这可能是更加容易同时成本更低的一种方案，至少这样不需要更换一整套 ETL 工具。

如果实时的性能非常必要的话，那么整个系统架构和工具集就一定需要做很大的改变。一个方案就是在数据被加载到主库之前构建一个暂存区，或者也可以在主数据库增加独立的表或者通过在独立服务器上运行独立数据库的方式构建一个影子系统。无论采用那种方式，总之就是让 ETL 操作在一个作为替代的从库上执行，并只将清洗干净的数据加载进主表。

构建一套影子系统的成本将会非常大，因为他本质上相当于复制了一套数仓，当然这样的话对性能的影响就比较小。

Ref: 如果你也想做实时数仓…

/* 有必要仔细读 */

posted @ 2019-11-20 20:39 郝壹贰叁阅读(222) 评论(0) 收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston

[Flink] 01 - Apache Flink: Stateful Computations over Data Streams

公告