随笔分类 -  etl

Castled 源码解析 - connector 模块几个中间表定义
摘要:Castled 的connector利用了schema 以及中间表进行数据存储(包含的已经提交的,未提交的) 官方使用了一个属于snapshot(快照),对于数据的处理,官方使用了excep sql 函数,基于不同 时间的snapshot 利用excep 就可以知道数据的变动 几个提供的中间表 主要 阅读全文

posted @ 2022-01-31 23:23 荣锋亮 阅读(54) 评论(0) 推荐(0)

Castled 源码解析 - connector 模块WarehousePollContext 说明
摘要:connector模块中的WarehousePollContext是比较重要的 代码说明 关于pipeline 格式的定义 了解pipeline格式定义,对于分析后边的代码是很有意义的,可以知道依赖的模块 public class PipelineConfigDTO { @NotNull priva 阅读全文

posted @ 2022-01-31 22:58 荣锋亮 阅读(41) 评论(0) 推荐(0)

Castled 源码解析 - connector 模块app部分说明
摘要:app 部分属于Castled处理外部链接的核心,主要包含了ExternalAppConnector以及DataSink 核心组件 ExternalAppConnector 选取了部分 DataSink 选取了部分 BufferedObjectSink 此对象是在每个DataSink实现都会包含的一 阅读全文

posted @ 2022-01-31 22:36 荣锋亮 阅读(80) 评论(0) 推荐(0)

Castled 源码解析 - connector 模块connector以及poller说明
摘要:connector 属于Castled 一个比较核心的东西,包含了核心部分的datawarehouse数据poll 处理,同时也包含了对于不同外部服务集成的处理 当然才代码中我们也可以看到一部分基于stream 的处理(文件,jdbc,s3.。。。),auth部分基于了oauth目前更多是关注认证, 阅读全文

posted @ 2022-01-31 21:28 荣锋亮 阅读(56) 评论(0) 推荐(0)

Castled 源码解析 - common 模块说明
摘要:Castled 的comon 模块包含了一个比较核心的东西form处理(官方成为CFL),同时也包含了一个常用的工具类CFL 是基于注解处理的,整体代码不是很多,比较重要的是schema,cfl,同时包含了Castled 自己开发的一个简单队列(阻塞以及带偏移的),同时定义了一些关于数据处理的接口定 阅读全文

posted @ 2022-01-31 14:06 荣锋亮 阅读(64) 评论(0) 推荐(0)

Castled 源码解析 - jarvis 模块说明
摘要:jarvis 模块主要保基于quartz 包装了一些调度以及任务管理,包含了刷新job ,全局job 同时也暴露为了一个通用的guice 模块,同时基于jesque进行后台任务以及延迟任务的处理 通过代码会发现jesque 占比是比较多的(好多任务处理的,状态标记的),而且quartz更多是 与后台 阅读全文

posted @ 2022-01-31 14:00 荣锋亮 阅读(231) 评论(0) 推荐(0)

基于dremio 开发一个简单的反向ETL
摘要:反向ETL 目前是一个和不错的领域,以下是自己基于一些工具集成参考构思的一个反向ETL 设计方案,具体编码还在规划中以下简单介绍下一些思路 参考图 简单说明 核心是利用了dremio 数据反射以及CTAS 能力(也支持drop),对于数据使用了快照的处理,直接存储在s3中,格式使用了基于时间分区的格 阅读全文

posted @ 2022-01-20 23:36 荣锋亮 阅读(212) 评论(0) 推荐(0)

来自Castled 官方的一篇性能对比
摘要:转自:https://medium.com/castled/fastest-reverse-etl-platform-census-vs-hightouch-vs-castled-3d2975dd4e55Fastest Reverse ETL Platform: Census vs Hightouc 阅读全文

posted @ 2022-01-14 01:11 荣锋亮 阅读(76) 评论(0) 推荐(0)

census 安全处理模式
摘要:通过此图以及官方的文档我们可以更好的了解实现机制 参考机制 详细内容参考官方文档,以下是一个参考图参考图 参考资料 https://blog.getcensus.com/reverse-etl-benchmark-series-pt-1-census-44x-faster-than-hightouc 阅读全文

posted @ 2022-01-04 21:12 荣锋亮 阅读(52) 评论(0) 推荐(0)

castled 简单原理说明
摘要:主要是一个简单的原理说明,具体的后续会从代码层面说明 参考图 poller 接口定义 public interface WarehouseDataPoller { WarehousePollResult pollRecords(WarehousePollContext warehousePollCo 阅读全文

posted @ 2022-01-04 20:51 荣锋亮 阅读(136) 评论(0) 推荐(0)

castled 运行试用
摘要:castled 官方直接提供了docker-compose 一键运行 环境运行 docker-compose git clone https://github.com/castledio/castled.git cd castled docker-compose up -d pg 准备 docker 阅读全文

posted @ 2022-01-03 22:49 荣锋亮 阅读(65) 评论(0) 推荐(0)

反向ETL 一些参考知识
摘要:反向ETL 实际是一种集成模式,以下这张图可以说明反向ETL 的位置 参考图 说明 基于标准的玩法,系统开发会越来越简单,反向ETL 是从业务模型上通用化了新的处理模式,对于我们的集成会方便很多,以下一些参考资料值得学习下 参考资料 https://hightouch.io/blog/reverse 阅读全文

posted @ 2022-01-03 14:56 荣锋亮 阅读(201) 评论(0) 推荐(0)

castled 开源反向ETL 工具
摘要:反向ETL 是这几年因为数据集成演变出来的一个新型数据集成模式(saas 的兴起,以及外部共享的需求) castled 参考玩法 支持的特性 增量以及全量同步 自动异常处理以及恢复 弹性可靠 CFL (castled自己的一套UI框架) k8s 集成 说明 castled 同时支持扩展,提供了jav 阅读全文

posted @ 2022-01-03 14:41 荣锋亮 阅读(196) 评论(0) 推荐(0)

streamsets tar 模式启动
摘要:参考步骤 下载 下载需要注册账户,注册就可以了 配置 基于3.21 解压软件包 tar xf streamsets-datacollector-all-3.21.0.tgz -C /opt/streamsets-datacollector 复制 service cp systemd/sdc.serv 阅读全文

posted @ 2021-03-12 22:58 荣锋亮 阅读(274) 评论(0) 推荐(0)

streamset data collector 新注册机制
摘要:streamset data collector 从3.15x开始下载是需要注册的,但是可以无限使用,这个还是很不错(主要还是因为云模式影响的)默认的登陆默认应该很早就有些变动了,默认会使用oauth,但是我们可以配置基于ldap以及file 的,但是还是需要注册码的 配置参考 https://st 阅读全文

posted @ 2021-03-09 23:06 荣锋亮 阅读(1856) 评论(0) 推荐(0)

airbyte 整体架构
摘要:内容来自官方文档,基于此图我们可以了解airbyte 的整体运行&&方便问题解决&&环境部署 参考图 简单说明 ui 进行配置,以及通过界面查看同步&&日志 config store 关于认证&&同步次信息存储 scheduler 存储关于调度执行情况 config api 方便ui 进行连接配置 阅读全文

posted @ 2021-02-19 17:12 荣锋亮 阅读(3300) 评论(0) 推荐(0)

astronomer 企业级的airflow 框架
摘要:airflow 是一个很不错的workflow 调度工具,但是实际使用还是有一些问题的。astronomer 基于airflow 做了一些扩展,可以实现airflow安全,产品级,可靠以及可扩展 一些说明 astronomer 也是基于开源的组件做了一些包装,比如graphql的,helm,ngin 阅读全文

posted @ 2021-02-12 13:20 荣锋亮 阅读(469) 评论(0) 推荐(0)

airbyte 基于singer 扩展的EL 平台
摘要:airbyte 是基于singer 协议扩展的EL 平台,支持了不错的可视化操作 支持的特性 方便的数据操作(配置+api) 方便的connector 构建操作 开源可以私有化部署 参考docker-compose 运行 .env VERSION=0.14.1-alpha DATABASE_USER 阅读全文

posted @ 2021-01-30 19:10 荣锋亮 阅读(2332) 评论(0) 推荐(0)

easy-batch相关qa
摘要:easy-batch相关qa,还是很不错的资料 包括了数据读取的原理,数据写入的原理,数据校验,与spring batch 的比较,基于easy-batch的复杂处理方法(easy-flows) 参考链接: https://github.com/j-easy/easy-batch/wiki/faqs 阅读全文

posted @ 2020-04-19 18:40 荣锋亮 阅读(226) 评论(0) 推荐(0)

easy-batch job listeners
摘要:easy-batch 的listeners给与我们提供了一个系统状态的一个日志监控点,同时 基于不同的类型提供了不通的监控 Job listener job 关联的 需要实现的方法签名 public interface JobListener { ​ void beforeJobStart(JobP 阅读全文

posted @ 2020-04-19 18:39 荣锋亮 阅读(278) 评论(0) 推荐(0)

导航