文章分类 - 数据集成工具
摘要:sqoop export\import 参数 export 参数说明: --validate <class-name>启用数据副本验证功能,仅支持单表拷贝,可以指定验证使用的实现类 --validation-threshold <class-name>指定验证门限所使用的类 --direct 使用直
阅读全文
摘要:数据同步工具Sqoop--功能例子 数据中心开发过程中主要使用的数据同步工具为Sqoop。Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,可以将一个关系型数据库(例如:MySQL ,Oracle等)中的数据导进到Hadoop的HDFS中
阅读全文
摘要:Flume 介绍 实时数据采集工具 可以监控一个文件,可以监控一个目录,可以监听一个端口 将采集到的数据写入Kafka、hdfs、hbase、…… 只能采集当前服务器中的数据 可以关注 GitHub 上的热度 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定
阅读全文
摘要:伪分布式集群 Linux 查看历史命令 history Linux查看进程运行的状态 top 也能查看集群资源 为了节省计算机的资源,我们将之前分布式的集群,改为伪分布式 伪分布式:即在一个节点上做分布式,可以节省资源 拍摄快照 在改伪分布式之前可以给我们的集群拍个快照,方便之后如果想要用回分布式集
阅读全文
摘要:canal canal,译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。 canal的数据同步不是全量的,而是增量。基于binary log增量订阅和消费,canal可以做: 数据库镜像 数据库实时备份 索引构建和实时维护 业务cache(缓存)刷新
阅读全文
摘要:Sqoop 将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具 官网: http://sqoop.apache.org/ 版本:(两个版本完全不兼容,sqoop1使用最多) sqoop1:1.4.x sqoop2:1.99.x 同类产品 DataX:
阅读全文
摘要:DataX的安装及使用 DataX 简介 和 Sqoop 的功能类似,都是做离线采集的 Sqoop 是基于 MapReduce 的,分布式的 DataX 是基于 java 的,单机多线程的 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlSe
阅读全文
摘要:数据采集工具 Flume Sqoop DataX Canal 数据采集工具分类 离线采集(批量采集) 1、Sqoop 2、DataX 实时采集(增量采集) 1、Flume 2、Canal Flume 一般直接对接 Kafka flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
阅读全文

浙公网安备 33010602011771号