随笔分类 -  ETL工具

摘要:一、并发控制优化 ‌通道数调整‌ 根据数据源与目标端硬件资源(CPU、内存、IO),动态调整channel参数,避免过度并发引发资源争抢。例如,MySQL到HDFS的同步任务,建议单机通道数不超过CPU核数的2倍。 使用-Ddatax.job.channel=10命令行参数或配置文件全局设置通道数, 阅读全文
posted @ 2025-04-22 15:01 业余砖家 阅读(775) 评论(0) 推荐(0)
摘要:‌一、基础概念与原理‌ ‌1. DataX的核心设计目标是什么?其与Sqoop、Kettle等工具的差异点是什么?‌ ‌核心设计目标‌: ‌异构数据源支持‌:实现不同类型数据源(如关系型数据库、NoSQL、文件系统)之间的高效数据同步。 ‌高吞吐与低延迟‌:通过多线程、分片机制提升数据迁移效率。 ‌ 阅读全文
posted @ 2025-03-26 11:49 业余砖家 阅读(340) 评论(0) 推荐(0)
摘要:一、DataX简介 DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 二、DataX架构原理 为了解决异构数据源同步问题,DataX将复杂的网 阅读全文
posted @ 2023-10-19 17:21 业余砖家 阅读(766) 评论(0) 推荐(0)