摘要: Hive Hive基本概念 Hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL的查询功能 Hive的本质是将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS + Hive分析数据底层的实现是MapReduce + 执行程序运行在Yar 阅读全文
posted @ 2024-01-30 12:56 停不下的时光 阅读(3) 评论(0) 推荐(0) 编辑
摘要: Kafka 概述 Kafka 是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 优点: ​ 解耦 ​ 可恢复性 ​ 缓冲 ​ 灵活性 & 峰值处理能力 -> 削峰 ​ 异步通信 消息队列的两种模式: 点对点:一对一,消费者主动拉取数据,消息收到后消息清除 发布/订阅模式:一 阅读全文
posted @ 2024-01-30 12:56 停不下的时光 阅读(4) 评论(0) 推荐(0) 编辑
摘要: Maxwell 定义 实时读取Mysql二进制日志,并生成JSON格式的消息。作为生产者发送给 kafka,kinesis 等 原理 把自己伪装成MySQL的一个slave,然后以slave的身份假装从MySQL(master)复制数据。 安装 下载、解压 修改被监控数据库 /etc/my.cnf, 阅读全文
posted @ 2024-01-30 12:55 停不下的时光 阅读(5) 评论(0) 推荐(0) 编辑
摘要: DataX 什么是DataX DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle)、HDFS、Hive、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX框架 插件式 Reader:数据采集模块 Writer: Fram 阅读全文
posted @ 2024-01-30 12:55 停不下的时光 阅读(2) 评论(0) 推荐(0) 编辑
摘要: Elastic Search 下载 https://www.elastic.co/cn/downloads/elasticsearch # elasticsearch.yml ingest.geoip.downloader.enabled: false 也可以在jvm.options里设置启动内存, 阅读全文
posted @ 2024-01-30 12:54 停不下的时光 阅读(4) 评论(0) 推荐(0) 编辑
摘要: Flink Flink 主要特点 事件驱动 基于流的世界观:在 Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流 分层API:越顶层越抽象,表达含义越简明,使用越方便;越底层越具体,表达能力越丰富,使用越灵活 支持事件时间(event-time)和处理时间( 阅读全文
posted @ 2024-01-30 12:53 停不下的时光 阅读(5) 评论(0) 推荐(0) 编辑
摘要: Flume概述 https://flume.apache.org/releases/content/1.7.0/FlumeUserGuide.html Flume 定义 Flume 是 Cloudera 提供的一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活 阅读全文
posted @ 2024-01-30 12:53 停不下的时光 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 参考:https://blog.csdn.net/diweikang/article/details/90264993 Redis 是线程安全的吗? Redis 是个单线程程序,所以它是线程安全的。 Redis 单线程为什么还能这么快? redis 是基于内存的,内存的读写速度非常快 redis 是 阅读全文
posted @ 2023-07-26 13:17 停不下的时光 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 1. 表锁: lock tables t1 read, t2 write; 如果在某个线程A中执行这个语句,则其他线程【写t1】, 【读写t2】的语句都会被阻塞。同时,线程A在执行 unlock tables 之前,也只能执行【读t1】,【读写t2】的操作。 2. 行锁 1)在InnoDB事务中,行 阅读全文
posted @ 2023-06-26 10:04 停不下的时光 阅读(9) 评论(0) 推荐(0) 编辑
摘要: CPU高说明计算机在执行大量的计算,很大可能是查询执行时因索引建立不合理或sql语句书写效率低下,mysql发生了大量的连接查询、条件判断等,需要处理的记录数过大。 此时,可以通过建立合理的索引或者改写sql语句达到降低CPU的目的。 今天遇到的例子:1)要查询的日志表读写比较频繁,优化时,先对该表 阅读全文
posted @ 2022-07-18 12:28 停不下的时光 阅读(1475) 评论(0) 推荐(1) 编辑