ETL常规功能

 
ETL工具组成部分 功能需求大类 功能需求 功能需求说明 DataSpring    
实现情况 备注 存在问题 开发计划
产品架构 技术架构 微服务机构 Springboot开发全web架构,轻量化 不支持   需要提供微服务发现、集成、SSO支持 没有使用这个框架
部署架构 支持单机、集群、容器、分布式及多云部署模式 支持 K8S    
自主研发 自主研发 支持      
ETL基本功能  数据抽取功能 关系数据库  jdbc数据源接入,可以自己加载任意jdbc驱动(tdegine 3.0以上支持 influxdb 2.6以上),支持一般关系数据库MySQL、Oracle、PostgreSQL、SAP HANA等。 部分支持 SAP HANA
tdegine 3.0暂不支持
需要支持自主接入tdengine各个版本的数据源及数据目的 版本迭代支持:
1.只能支持指定版本(原生连接)
2.restful支持全版本
时序数据库 kafka 、HiveQL、 clickhouse时序数据库支持 部分支持 HiveQL、 clickhouse暫時不支持,后面迭代会支持 需要支持自主接入tdengine各个版本的数据源及数据目的 HiveQL、 clickhouse后面版本迭代支持
非结构性数据 excel、TXT,CVs 、xml、JSON格式读取 支持      
最大抽取数量 能够同时从多个数据源抽取数据以提高效率。 支持      
CDC 多个数据源取自上次抽取以来新增或修改的数据处理,适配哪些数据库 支持 mysql/sqlserver/oracle/pgsql/oceanbase/mongo/kafka等    
数据转换功能 图形配置界面 图形用户界面(GUI),简化ETL流程的设计和配置。 支持      
数据映射 将数据从一种格式或结构转换为另一种,确保数据符合目标系统的预期格式。支持人工修改字段 支持   需要支持可配置的,方便调用的,可复用的自定义算子,如数据清洗,脱敏,数据识别,关键是这些算子要支持跨项目迁移 版本迭代支持
数据输出功能 支持多种目标存储 能够将转换后的数据加载到不同的目的地,如数据仓库、数据湖、云端等。 支持      
数据输出调用API接口 最终结果可post到某个http服务中,可以post所有也可以循环post每一条,支持各类权限配置 支持 权限配置啥意思? 需要支持数据输出的目的地是某个系统的api接口(不是该流程可以用api调取,而是主动推送到某个系统的api接口) 定制开发
输出自定义java功能 最终输出结果可以自己编写java脚本,直接调用某个嵌入的lib包中的方法来进行处理 不支持   输出的功能需要自定义编写代码支持,支持引入各种功能包(如输出到我们自有协议的某些系统平台) 定制开发
ETL流程提供为API服务 可以将ETL流程提供为API服务,可随时调用进行,或调用获得一个即时ETL流程的输出结果 支持 可以通过配套产品DFC支持 需要直接在dataspring实现,因为另一个产品我们有阿里的中台了 版本迭代支持
流程配置迁移/复制 dump数据库恢复 迁移实例并保留原配置过的各种转换过程以及数据源等 支持      
复制新增转换配置及跨流程复制配置 复制新增转换配置及跨流程复制配置 支持   需要支持某个流程以及附属算子的内容的导入导出,方便在不同项目,不同实例,或同一项目的不同流程之间迁移 版本迭代支持
扩展性 插件或模块化架构 插件功能 允许轻松添加新的连接器或转换组件。以开发插件接入/微服务接入 支持 目前不开放用户自定义 输入、转换、加载插件均需要开放自定义编写功能 不支持
自定义二开功能 自定义开发平台 提供二开平台或者提供二开技术支持 支持 支持自定义sql处理数据 输入插件需支持配置sql进行采集 建议使用view,即使做sql可能存在不兼容
脚本支持 自定义pyton脚本支持 为复杂转换提供编写自定义代码的能力。 支持 支持自定义函数    
  数据迁移     支持   需要支持整个系统的所有配置的导入导出,方便在不同项目,不同实例之间迁移 已支持
私有部署 集团授权 用户数量 无限制授权 支持 根据合同,按照节点授权就无限制    
多系统运行 支持Windows、Linux或者其他国产操作系统安装 部分支持 CentOS7.x/Redhat7.x/Ubuntu 20.04 需要支持国产信创系统,华为OpenEuler,银河麒麟V10等 定制开发
源码授权 开放源码授权 不支持      
轻量 容器化 一个或两个容器,数据库最好使用postgresql作为配置存储库 支持      
与物联网平台关系 http输出 API接口 http输出JSON 支持   需要支持数据输出的目的地是某个系统的api接口(不是该流程可以用api调取,而是主动推送到某个系统的api接口) 版本迭代支持
电文广播 mqtt多主题集成及获取 可以与物联网平台交互,获取配置的各个测点的主题绑定情况,并合并同类主题减小资源消耗 不支持 可定制开发 需支持将消息输出到mqtt总线,nats总线 版本迭代支持
mqtt标准格式解析 能识别并解析物联网平台标准主题格式 不支持 可定制开发 需支持将消息输出到mqtt总线,nats总线 定制开发
其他功能 信创 国产化   不支持      
开源软件   不支持    
信创适配 国产信创环境适配 不支持 软件信创认证  
产品及服务能力 支撑服务 支撑服务 支撑服务 支持      
产品运营 产品运营 产品运营 支持      
1. 对比表
finedatalink
apache nifi
阿里 dataworks--暂无对比

2. 需要多少个容器,系统资源
15个容器
8U 32G服务器

3. 集团采购如何授权
license授权

4. 集成打标

5. 每个设计的组件,临时的处理代码,打包为bean

6. 效率评估benchmark

posted @ 2025-01-03 08:45  zjb480  阅读(79)  评论(0)    收藏  举报