随笔分类 -  DataX二次开发

DataX框架的源代码阅读记录及插件二次开发记录
摘要:一、研发背景 DataX官方开源的版本支持HDFS文件的读写,但是截止目前,并没有支持Parquet文件的读写,得益于DataX出色的数据同步性能,去年公司的项目大部分采用了DataX作为数据同步工具,但是从CDH集群同步Parquet或者将其他数据源的数据以Parquet格式写入HDFS,这两个常 阅读全文
posted @ 2023-02-13 10:24 ^王晓明^ 阅读(2582) 评论(14) 推荐(0)
摘要:DataX二次开发——新增HiveReader插件一、研发背景 DataX官方开源的版本支持HDFS文件的读写,并没有支持基于JDBC的Hive数据读写,很多时候一些数据同步不太方便,比如在读取Hive之前先执行一些sql、读取一些Hive的视图数据、或者在数据同步时执行一段固定的SQL,将SQL执行结果写入下游等各种场景,实际上还是需要Hive插 阅读全文
posted @ 2023-02-07 11:26 ^王晓明^ 阅读(1819) 评论(3) 推荐(1)
摘要:DataX插件二次开发指南##一、 DataX为什么要使用插件机制? 从设计之初,DataX就把异构数据源同步作为自身的使命,为了应对不同数据源的差异、同时提供一致的同步原语和扩展能力,DataX自然而然地采用了框架 + 插件 的模式: 插件只需关心数据的读取或者写入本身。 而同步的共性问题,比如:类型转换、性能、统计,则交 阅读全文
posted @ 2023-02-07 10:12 ^王晓明^ 阅读(1486) 评论(0) 推荐(0)