文章分类 -  数据集成工具

摘要:sqoop export\import 参数 export 参数说明: --validate <class-name>启用数据副本验证功能,仅支持单表拷贝,可以指定验证使用的实现类 --validation-threshold <class-name>指定验证门限所使用的类 --direct 使用直 阅读全文
posted @ 2022-07-07 19:15 赤兔胭脂小吕布 阅读(295) 评论(0) 推荐(0)
摘要:数据同步工具Sqoop--功能例子 ​ 数据中心开发过程中主要使用的数据同步工具为Sqoop。Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,可以将一个关系型数据库(例如:MySQL ,Oracle等)中的数据导进到Hadoop的HDFS中 阅读全文
posted @ 2022-06-06 14:17 赤兔胭脂小吕布 阅读(397) 评论(0) 推荐(0)
摘要:Flume 介绍 实时数据采集工具 可以监控一个文件,可以监控一个目录,可以监听一个端口 将采集到的数据写入Kafka、hdfs、hbase、…… 只能采集当前服务器中的数据 可以关注 GitHub 上的热度 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定 阅读全文
posted @ 2022-04-03 21:19 赤兔胭脂小吕布 阅读(117) 评论(0) 推荐(0)
摘要:伪分布式集群 Linux 查看历史命令 history Linux查看进程运行的状态 top 也能查看集群资源 为了节省计算机的资源,我们将之前分布式的集群,改为伪分布式 伪分布式:即在一个节点上做分布式,可以节省资源 拍摄快照 在改伪分布式之前可以给我们的集群拍个快照,方便之后如果想要用回分布式集 阅读全文
posted @ 2022-04-03 16:11 赤兔胭脂小吕布 阅读(77) 评论(0) 推荐(0)
摘要:canal canal,译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。 canal的数据同步不是全量的,而是增量。基于binary log增量订阅和消费,canal可以做: 数据库镜像 数据库实时备份 索引构建和实时维护 业务cache(缓存)刷新 阅读全文
posted @ 2022-04-02 15:59 赤兔胭脂小吕布 阅读(163) 评论(0) 推荐(0)
摘要:Sqoop 将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具 官网: http://sqoop.apache.org/ 版本:(两个版本完全不兼容,sqoop1使用最多) sqoop1:1.4.x sqoop2:1.99.x 同类产品 DataX: 阅读全文
posted @ 2022-04-02 15:25 赤兔胭脂小吕布 阅读(171) 评论(0) 推荐(0)
摘要:DataX的安装及使用 DataX 简介 和 Sqoop 的功能类似,都是做离线采集的 Sqoop 是基于 MapReduce 的,分布式的 DataX 是基于 java 的,单机多线程的 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlSe 阅读全文
posted @ 2022-04-02 10:37 赤兔胭脂小吕布 阅读(1453) 评论(0) 推荐(0)
摘要:数据采集工具 Flume Sqoop DataX Canal 数据采集工具分类 离线采集(批量采集) 1、Sqoop 2、DataX 实时采集(增量采集) 1、Flume 2、Canal Flume 一般直接对接 Kafka flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 阅读全文
posted @ 2022-04-01 22:37 赤兔胭脂小吕布 阅读(671) 评论(0) 推荐(0)