ETL常规功能
| ETL工具组成部分 | 功能需求大类 | 功能需求 | 功能需求说明 | DataSpring | |||
| 实现情况 | 备注 | 存在问题 | 开发计划 | ||||
| 产品架构 | 技术架构 | 微服务机构 | Springboot开发全web架构,轻量化 | 不支持 | 需要提供微服务发现、集成、SSO支持 | 没有使用这个框架 | |
| 部署架构 | 支持单机、集群、容器、分布式及多云部署模式 | 支持 | K8S | ||||
| 自主研发 | 自主研发 | 支持 | |||||
| ETL基本功能 | 数据抽取功能 | 关系数据库 | jdbc数据源接入,可以自己加载任意jdbc驱动(tdegine 3.0以上支持 influxdb 2.6以上),支持一般关系数据库MySQL、Oracle、PostgreSQL、SAP HANA等。 | 部分支持 | SAP HANA tdegine 3.0暂不支持 |
需要支持自主接入tdengine各个版本的数据源及数据目的 | 版本迭代支持: 1.只能支持指定版本(原生连接) 2.restful支持全版本 |
| 时序数据库 | kafka 、HiveQL、 clickhouse时序数据库支持 | 部分支持 | HiveQL、 clickhouse暫時不支持,后面迭代会支持 | 需要支持自主接入tdengine各个版本的数据源及数据目的 | HiveQL、 clickhouse后面版本迭代支持 | ||
| 非结构性数据 | excel、TXT,CVs 、xml、JSON格式读取 | 支持 | |||||
| 最大抽取数量 | 能够同时从多个数据源抽取数据以提高效率。 | 支持 | |||||
| CDC | 多个数据源取自上次抽取以来新增或修改的数据处理,适配哪些数据库 | 支持 | mysql/sqlserver/oracle/pgsql/oceanbase/mongo/kafka等 | ||||
| 数据转换功能 | 图形配置界面 | 图形用户界面(GUI),简化ETL流程的设计和配置。 | 支持 | ||||
| 数据映射 | 将数据从一种格式或结构转换为另一种,确保数据符合目标系统的预期格式。支持人工修改字段 | 支持 | 需要支持可配置的,方便调用的,可复用的自定义算子,如数据清洗,脱敏,数据识别,关键是这些算子要支持跨项目迁移 | 版本迭代支持 | |||
| 数据输出功能 | 支持多种目标存储 | 能够将转换后的数据加载到不同的目的地,如数据仓库、数据湖、云端等。 | 支持 | ||||
| 数据输出调用API接口 | 最终结果可post到某个http服务中,可以post所有也可以循环post每一条,支持各类权限配置 | 支持 | 权限配置啥意思? | 需要支持数据输出的目的地是某个系统的api接口(不是该流程可以用api调取,而是主动推送到某个系统的api接口) | 定制开发 | ||
| 输出自定义java功能 | 最终输出结果可以自己编写java脚本,直接调用某个嵌入的lib包中的方法来进行处理 | 不支持 | 输出的功能需要自定义编写代码支持,支持引入各种功能包(如输出到我们自有协议的某些系统平台) | 定制开发 | |||
| ETL流程提供为API服务 | 可以将ETL流程提供为API服务,可随时调用进行,或调用获得一个即时ETL流程的输出结果 | 支持 | 可以通过配套产品DFC支持 | 需要直接在dataspring实现,因为另一个产品我们有阿里的中台了 | 版本迭代支持 | ||
| 流程配置迁移/复制 | dump数据库恢复 | 迁移实例并保留原配置过的各种转换过程以及数据源等 | 支持 | ||||
| 复制新增转换配置及跨流程复制配置 | 复制新增转换配置及跨流程复制配置 | 支持 | 需要支持某个流程以及附属算子的内容的导入导出,方便在不同项目,不同实例,或同一项目的不同流程之间迁移 | 版本迭代支持 | |||
| 扩展性 | 插件或模块化架构 | 插件功能 | 允许轻松添加新的连接器或转换组件。以开发插件接入/微服务接入 | 支持 | 目前不开放用户自定义 | 输入、转换、加载插件均需要开放自定义编写功能 | 不支持 |
| 自定义二开功能 | 自定义开发平台 | 提供二开平台或者提供二开技术支持 | 支持 | 支持自定义sql处理数据 | 输入插件需支持配置sql进行采集 | 建议使用view,即使做sql可能存在不兼容 | |
| 脚本支持 | 自定义pyton脚本支持 | 为复杂转换提供编写自定义代码的能力。 | 支持 | 支持自定义函数 | |||
| 数据迁移 | 支持 | 需要支持整个系统的所有配置的导入导出,方便在不同项目,不同实例之间迁移 | 已支持 | ||||
| 私有部署 | 集团授权 | 用户数量 | 无限制授权 | 支持 | 根据合同,按照节点授权就无限制 | ||
| 多系统运行 | 支持Windows、Linux或者其他国产操作系统安装 | 部分支持 | CentOS7.x/Redhat7.x/Ubuntu 20.04 | 需要支持国产信创系统,华为OpenEuler,银河麒麟V10等 | 定制开发 | ||
| 源码授权 | 开放源码授权 | 不支持 | |||||
| 轻量 | 容器化 | 一个或两个容器,数据库最好使用postgresql作为配置存储库 | 支持 | ||||
| 与物联网平台关系 | http输出 | API接口 | http输出JSON | 支持 | 需要支持数据输出的目的地是某个系统的api接口(不是该流程可以用api调取,而是主动推送到某个系统的api接口) | 版本迭代支持 | |
| 电文广播 | mqtt多主题集成及获取 | 可以与物联网平台交互,获取配置的各个测点的主题绑定情况,并合并同类主题减小资源消耗 | 不支持 | 可定制开发 | 需支持将消息输出到mqtt总线,nats总线 | 版本迭代支持 | |
| mqtt标准格式解析 | 能识别并解析物联网平台标准主题格式 | 不支持 | 可定制开发 | 需支持将消息输出到mqtt总线,nats总线 | 定制开发 | ||
| 其他功能 | 信创 | 国产化 | 不支持 | ||||
| 开源软件 | 不支持 | ||||||
| 信创适配 | 国产信创环境适配 | 不支持 | 软件信创认证 | ||||
| 产品及服务能力 | 支撑服务 | 支撑服务 | 支撑服务 | 支持 | |||
| 产品运营 | 产品运营 | 产品运营 | 支持 | ||||
| 1. 对比表 finedatalink apache nifi 阿里 dataworks--暂无对比 2. 需要多少个容器,系统资源 15个容器 8U 32G服务器 3. 集团采购如何授权 license授权 4. 集成打标 5. 每个设计的组件,临时的处理代码,打包为bean 6. 效率评估benchmark |

浙公网安备 33010602011771号