数据同步-同步mysql到iceberg后如何确定数据一致性

一、数据打快照做数据比较

1、mysql创建快照

优点:可以选择时间做快照,然后对比

缺点:需要额外的存储空间和处理时间,不好自动化,大表做快照成本高

2、实现方式

create database 快照名称 on (name=数据库名称,filename='存放快照路径/文件名.ss' as snapshot of 数据库名

3、读取iceberg和快照数据,排除增量数据,然后对比两个数据是否一致。

 

二、数据质量工具

考虑使用专门的数据质量工具

1、Apache Griffin等,来对比MySQL和Hive中的数据

  这些工具通常提供了更多的定制化选项和自动化功能,能够更方便地进行数据比较和监控

  统计的目标(源端和目标端的数据数量是否一致,数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等)

2、Apache Nifi:Apache NiFi是一个可视化的数据流处理和自动化工具,它提供了丰富的数据流管道和数据处理功能,可以用于数据质量监控和处理。

3、Great Expectations:Great Expectations是一个开源的数据验证库,它可以帮助您定义、验证和监控数据集的期望(expectations),并在数据中发现异常。

4、DataHub:DataHub是一个LinkedIn开源的数据平台,提供了一系列工具和功能,包括数据发现、数据血统追踪、数据质量监控等,可以帮助您管理和监控数据质量。

5、Ataccama:Ataccama是一个全面的数据管理平台,提供了数据质量管理、数据集成、数据治理等功能,可以帮助您实现数据质量监控和改进。

6、Talend Data Quality:Talend提供了一套数据质量工具,包括数据质量监控、数据清洗、数据标准化等功能,适用于各种数据集成和数据质量管理场景。

posted @ 2024-04-19 15:09  黑水滴  阅读(5)  评论(0编辑  收藏  举报