摘要: 一、Clickhouse的物化视图 今天来简单介绍一下clickhouse的物化视图 物化视图与普通视图的区别: 普通视图不保存数据,保存的仅仅是查询语句,查询的时候还是从原表读取数据,可以将普通视图理解为是个子查询,物化视图则是把查询的结果根据相应的引擎存入到了磁盘或内存中,对数据重新进行了组织, 阅读全文
posted @ 2021-08-29 12:34 风清_云淡 阅读(1737) 评论(0) 推荐(0) 编辑
摘要: 一、到底在哪些地方需要使用序列化技术呢? 二、Zookeeper(分布式协调服务组件+存储系统) Java 序列化机制 Hadoop序列化机制 Zookeeper序列化机制 一、到底在哪些地方需要使用序列化技术呢? 1、当在网络中需要进行消息、数据、等的传输,那么这些数据就需要进行序列化和反序列化。 阅读全文
posted @ 2021-08-15 15:19 风清_云淡 阅读(142) 评论(0) 推荐(0) 编辑
摘要: yarn的工作执行流程图 1、用户向YARN中提交应用程序 2、ResourceManager为该应用程序找到一个可用的NodeManager 并分配一个Container,然后在这个Container中启动应用程序的ApplicationMaster。 3、ApplicationMaster向Re 阅读全文
posted @ 2021-08-06 17:21 风清_云淡 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 1、WAL意为 Write Ahead Log ,类似MySQL中的binlog,用来做灾难恢复之用,HLog记录数据的所有变更,一旦数据修改,就可以从Log中进行恢复。 Hbase采用类LSM的架构体系,数据写入并没有直接写入文件,而是会先写入缓存(Memstore),在满足一定条件下缓存缓存数据 阅读全文
posted @ 2021-08-03 17:53 风清_云淡 阅读(445) 评论(0) 推荐(0) 编辑
摘要: Delta Lake 是DataBricks公司推出的一种数据湖解决方案,Delta为该方案的核心组件。围绕数据流走向(数据入湖从流入数据湖、数据组织管理、数据查询到流出数据湖)推出了一系列功能特性, 协助您搭配第三方上下游工具,搭建快捷、易用、和安全的数据湖。 通常的数据湖方案是选取大数据存储引擎 阅读全文
posted @ 2021-06-11 14:18 风清_云淡 阅读(938) 评论(0) 推荐(0) 编辑
摘要: 一、Docker出现背景 docker追求的问题/目标是什么? 云计算兴起后,服务器硬件扩展非常便利,软件服务部署成为了瓶颈,docker趁势而兴。 环境配置是十分的麻烦,每一个机器都要部署环境(集群Redis、ES、Hadoop...) 费时费力。 二、Docker的历史 2010年,几个搞it的 阅读全文
posted @ 2021-05-29 22:59 风清_云淡 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 一、TiDB整体架构 与传统的单机数据库相比,TiDB具有以下优势: 纯分布式架构,拥有良好的扩展性,支持弹性的扩缩容 支持SQL,对外暴露MySQL的网络协议,并兼容大多数MySQL的语法,在大多数场景下可以直接替换MySQL 默认支持高可用,在少数副本失效的情况下,数据库本身能够自动进行数据修复 阅读全文
posted @ 2021-05-28 09:32 风清_云淡 阅读(6886) 评论(0) 推荐(0) 编辑
摘要: package com.streamingjoin import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor} import org.apache.flink.streaming.api.TimeCharac 阅读全文
posted @ 2021-04-08 17:29 风清_云淡 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 之前熟悉的流处理API中的转换算子是无法访问事件的时间戳信息和水位线信息的。例如:MapFunction 这样的map转换算子就无法访问时间戳或者当前事件的时间。 然而,在一些场景下,又需要访问这些信息。基于此,DataStream API提供了一系列的 Low-Level转换算子。 这些算子支持访 阅读全文
posted @ 2021-02-01 13:58 风清_云淡 阅读(662) 评论(0) 推荐(0) 编辑
摘要: 1、Kafka的客户端缓冲机制 首先,先得给大家明确一个事情,那就是在客户端发送消息给kafka服务器的时候,一定是有一个内存缓冲机制的。 也就是说,消息会先写入一个内存缓冲中,然后多条消息组成了一个Batch,才会一次网络通信吧把Batch发送过去。 2、内存缓冲造成的频繁GC问题 那么这种内存缓 阅读全文
posted @ 2021-01-31 15:26 风清_云淡 阅读(625) 评论(0) 推荐(0) 编辑