ETL过多也是病
原文:http://www.donews.com/Content/200602/c9dce1e7aa394e40ba79958b0996affe.shtm
坦率地讲,执行大量的提取、转换和加载(ETL)活动就是数据管理不善和缺少数据战略的同义词。当数据作为企业资产得到正确地管理时,ETL应该显著减少,并且在很多情况下完全根除。也许,ETL在IT界被用得过滥了,从而导致效率低下和不必要的费用。
随着公司的发展老系统开始无法满足需要时,ETL大行其道。随着从传统系统向开放系统的转移,ETL在迁移数据上发挥了不可或缺的作用。不幸的是,很多公司不能完全淘汰过时的系统。他们不是作为一种一次性的转换工作执行ETL,相反ETL演进成为日常运营的一部分。
例如,企业中来自产品系统的数据会流入到保修、采购和销售系统中,并最终进入数据仓库。数据不仅被提取和加载,而且还必须进行转换,因为不同系统之间的数据结构完全不同。但系统之间的数据很难达到同步复制,不可避免的结果是低劣的数据质量和很高的维护费用。
如果本例中的产品数据库发生变化,例如,添加新的域或表格,则必须改变将数据从数据源移动到目标系统的所有对应关系。数据源中的很小的结构变化就会造成ETL对应关系和目标数据库中的一场维护噩梦——付出巨额的IT费用却没有增加价值。
本例中惟一合法的ETL活动是从数据库到数据仓库的动作。其他所有的活动都是不必要的,并造成巨额的费用。
这个问题的解决办法其实相当简单,但是需要新思路:IT必须对应用进行改造,利用通用的共享数据库。数据库,而非应用,是所有一切的中心。信息是一种企业资产,不属于某个小组或部门。因此,数据库在设计和实现时必须考虑数据制造者和消费者。整个公司必须参与定义和建立关系模型的工作。
有一个可以用来确定公司是否具有有效的数据战略的简单规则,即从计算ETL流程和冗余数据库的数量入手。数量越大,公司就越不可能正确地管理数据。
浙公网安备 33010602011771号