随笔分类 -  数据采集工具

摘要:![image](https://img2022.cnblogs.com/blog/2598064/202204/2598064-20220407170741364-940037839.png) ![image](https://img2022.cnblogs.com/blog/2598064/202204/2598064-20220407170746064-284794268.png) 阅读全文
posted @ 2022-04-07 17:08 阿伟宝座 阅读(180) 评论(1) 推荐(0)
摘要:Flume的安装与使用 一、Flume 介绍 实时数据采集工具 可以监控一个文件,可以监控一个目录,可以监听一个端口 将采集到的数据写入Kafka、hdfs、hbase、…… 只能采集当前服务器中的数据 可以关注 GitHub 上的热度 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传 阅读全文
posted @ 2022-04-07 16:59 阿伟宝座 阅读(713) 评论(0) 推荐(0)
摘要:伪分布式集群 Linux 查看历史命令 history Linux查看进程运行的状态 top 也能查看集群资源 为了节省计算机的资源,我们将之前分布式的集群,改为伪分布式 伪分布式:即在一个节点上做分布式,可以节省资源 拍摄快照 在改伪分布式之前可以给我们的集群拍个快照,方便之后如果想要用回分布式集 阅读全文
posted @ 2022-04-07 16:02 阿伟宝座 阅读(143) 评论(0) 推荐(0)
摘要:canal的安装与使用 canal,译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。(实时监控MySQL) canal的数据同步不是全量的,而是增量。基于binary log增量订阅和消费,canal可以做: 1、数据库镜像 2、数据库实时备份 3、索 阅读全文
posted @ 2022-04-07 16:01 阿伟宝座 阅读(829) 评论(0) 推荐(0)
摘要:Sqoop的安装与使用 目录 Sqoop Sqoop架构 导入数据到hdfs 导出hdfs数据 Sqoop安装及使用 SQOOP安装 1、上传并解压 2、修改文件夹名字 3、修改配置文件 4、修改环境变量 5、添加MySQL连接驱动 6、测试 准备MySQL数据 登录MySQL数据库 创建stude 阅读全文
posted @ 2022-04-03 16:31 阿伟宝座 阅读(222) 评论(0) 推荐(0)
摘要:DataX的安装及使用 DataX的介绍 DataX是阿里开源软件异构数据源离线同步工具, 致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能 易用性:以执行脚本方式运行,对使用人员技术要求较高。 性能 阅读全文
posted @ 2022-04-03 15:01 阿伟宝座 阅读(21181) 评论(0) 推荐(1)