ETL系统需求分析
1.1. 背景分析
在托管及资管行业业务运作过程中经常需要进行外部文件或数据库数据导入导出,前期SOFA开发专用的数据导入引擎作为组件嵌入到业务系统中,解决了相关问题。随着业务发展,越来越多的客户倾向创建自己数据仓库,为业务决策提供更多的支持。数据导入引擎已不能完全满足需求,需要我们提供专业ETL产品来满足业务的需要。
1.2. 目标分析
COW-ETL产品特点:
l 采用B/S方式部署,采用纯JAVA技术实现,可以部署到Windows、Linux、Unix、MacOS等多种操作系统和硬件平台中。
l 采用像多线程、分布式、负载均衡、集中管理等高性能、高可靠性与易管理和扩展的多层体系架构。
l 支持ETL任务调度,可直接执行,也可时间触发及事件触发方式执行。
l 丰富的异构数据源数据抽取及输出。支持不同数据源(包括各种主流关系非关系数据库oracle,db2,mysql,sqlserver,hbase等)、外部文件(包括dbf,mdb,txt,excel,xml,csv等)、外部服务接口进行数据的采集抽取。同时也支持各种数据输出方式,包括入库及文件输出。
l 支持大数据处理。支持数据存储及抽取存放在HDFS、HBASE上,采用ZooKeeper等技术进行分布式、并行计算处理。
l 模块化设计。产品中的模型以模块的方式注册到系统中,可以方便、快速的进行扩展。第三方厂商也可以利用程序提供的API接口进行二次开发,从而达到定制ETL功能的需求。
l 计算引擎。在数据的抽取、清洗和转换过程中,需要大量的公式运算。支持公式灵活扩展,采用并发、缓存等措施对公式执行进行优化,极大的提高了公式执行的效率。
浙公网安备 33010602011771号