摘要: Hive Hive基本概念 Hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL的查询功能 Hive的本质是将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS + Hive分析数据底层的实现是MapReduce + 执行程序运行在Yar 阅读全文
posted @ 2024-01-30 12:56 停不下的时光 阅读(3) 评论(0) 推荐(0) 编辑
摘要: Kafka 概述 Kafka 是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 优点: ​ 解耦 ​ 可恢复性 ​ 缓冲 ​ 灵活性 & 峰值处理能力 -> 削峰 ​ 异步通信 消息队列的两种模式: 点对点:一对一,消费者主动拉取数据,消息收到后消息清除 发布/订阅模式:一 阅读全文
posted @ 2024-01-30 12:56 停不下的时光 阅读(5) 评论(0) 推荐(0) 编辑
摘要: Maxwell 定义 实时读取Mysql二进制日志,并生成JSON格式的消息。作为生产者发送给 kafka,kinesis 等 原理 把自己伪装成MySQL的一个slave,然后以slave的身份假装从MySQL(master)复制数据。 安装 下载、解压 修改被监控数据库 /etc/my.cnf, 阅读全文
posted @ 2024-01-30 12:55 停不下的时光 阅读(5) 评论(0) 推荐(0) 编辑
摘要: DataX 什么是DataX DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle)、HDFS、Hive、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX框架 插件式 Reader:数据采集模块 Writer: Fram 阅读全文
posted @ 2024-01-30 12:55 停不下的时光 阅读(2) 评论(0) 推荐(0) 编辑
摘要: Elastic Search 下载 https://www.elastic.co/cn/downloads/elasticsearch # elasticsearch.yml ingest.geoip.downloader.enabled: false 也可以在jvm.options里设置启动内存, 阅读全文
posted @ 2024-01-30 12:54 停不下的时光 阅读(4) 评论(0) 推荐(0) 编辑
摘要: Flink Flink 主要特点 事件驱动 基于流的世界观:在 Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流 分层API:越顶层越抽象,表达含义越简明,使用越方便;越底层越具体,表达能力越丰富,使用越灵活 支持事件时间(event-time)和处理时间( 阅读全文
posted @ 2024-01-30 12:53 停不下的时光 阅读(5) 评论(0) 推荐(0) 编辑
摘要: Flume概述 https://flume.apache.org/releases/content/1.7.0/FlumeUserGuide.html Flume 定义 Flume 是 Cloudera 提供的一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活 阅读全文
posted @ 2024-01-30 12:53 停不下的时光 阅读(8) 评论(0) 推荐(0) 编辑