数据同步：全量与增量

2018-03-07 15:52 乘着风去破浪阅读(43520) 评论(2) 收藏举报

1.背景

数据如果保留多份，就会存在一致性问题，就需要同步，同步分为两大类：全量和增量

数据如果要保留副本，要么同时写（就是多写），或者进行复制：异步写（即从主数据拷贝到副本）；

同时写（多写），引出一个问题，写多少节点算成功（场景：分布式系统）？全部写成功才算成功，还是写大多数成功算成功，还是写指定几个节点算成功？

异步写的话，如果采用异步复制，那么实时性需要考量的话，就需要采用性能优先的架构。

数据同步一般分为两种方式：全量和增量。

全量，这个很好理解。就是每天定时（避开业务高峰期）或者周期性全量把数据从一个地方拷贝到另外一个地方；

全量的话，可以采用直接全部覆盖（使用“新”数据覆盖“旧”数据）；或者走更新逻辑（覆盖前判断下，如果新旧不一致，就更新）；

这里面有一个隐藏的问题：如果采用异步写，主数据物理删除了，怎么直接通过全量数据同步？这就需要借助一些中间操作日志文件，或者其他手段，把这些“看不到”的数据记录起来。

增量的基础是全量，就是你要使用某种方式先把全量数据拷贝过来，然后再采用增量方式同步更新。

增量的话，就是指抓取某个时刻（更新时间）或者检查点（checkpoint）以后的数据来同步，不是无规律的全量同步。这里引入一个关键性的前提：副本一端要记录或者知道（通过查询更新日志或者订阅更新）哪些更新了。

采用更新时间戳、有的采用checkpoint等来标识和记录更新点。

刷新页面返回顶部