简单的想法:
前提提要:关于etl中抽取数据:增量与全量 比较让人关注的是 全量抽取
但增量更符合我们的愿望,因为 在数据量太大的情况下,全量让人望而生畏,当然是在我们的运行速率不满意的情况下。
在 :源数据库——目标数据库
目的:方便找到原数据中修改、删除及增加的数据
阐述:对源数据库的修改、删除、增加策略进行修改
1、增加一个修改键字段(系统或自动创建生成):最原始的每行修改键应该是连续的。
2、如果对每行做出修改,那应该先复制数据到另一存储空间,并删除原数据,修改后插入以及修改键,修改后的修改键是新生成的(不与历史所有的键相同或是直接接着最后)
3、新增或删除时,新增是直接插入数据然后插入修改键,删除时是直接删除
4、数据新增的位置能很明确
说明:1、生成的修改键需保证不与历史修改键相同 2、第二个阐述可以保持原地,也可以删除后再插入,但这种方式最后是删除后再插入比较好。
对比与优缺:确定源与目标数据库不一样的数据时,最常见的方法是对源数据库的历史更改的记录,让后对这些记录进行查看后操作。
而这种方法比较简单明了
缺点:1、增加了一个字段,破坏了数据本身
2、自动生成这个修改键,自动与生成都要系统支持
实现说明:~
想法:ps想法一闪而过,估计比较简单,而且对数据库也接触不久。
后记:我在网上一篇文章上突然间发现,我这种策略居然有名字叫做时间戳,我这里的优缺点参考了上面的说明。
浙公网安备 33010602011771号