摘要: 无限数据流的统计问题 今天给大家分享一下Flink的Windows。Hive的窗口函数其实跟MySQL的差不多,因为他们都是基于离线数据的聚合。Flink的windows和Hive的窗口函数不完全一样。 离线数据处理好理解,数据已经落地在一张表里,咱可以通过partition by,按照某个字段进行 阅读全文
posted @ 2021-07-26 10:36 民宿 阅读(495) 评论(0) 推荐(0)
摘要: 所有的数据处理工具都面临数据高可靠、高可用的问题,一旦服务发生问题,如何保证数据不会丢失? 高可靠解决方案 MySQL用BinLog来解决这个问题,它把每一步事务操作都记录下来,一旦发生问题,可以追踪binlog找到每一步的操作记录。MySQL还会提供快照、备份的功能。 HDFS通过多副本和ZooK 阅读全文
posted @ 2021-07-26 10:31 民宿 阅读(373) 评论(0) 推荐(0)
摘要: 优点: 1,为了高效的使用CPU,数据不仅仅按列存储,同时还按向量进行处理; 2,数据压缩空间大,减少IO;处理单查询高吞吐量每台服务器每秒最多数十亿行; 3,索引非B树结构,不需要满足最左原则;只要过滤条件在索引列中包含即可;即使在使用的数据不在索引中,由于各种并行处理机制ClickHouse全表 阅读全文
posted @ 2021-07-24 14:19 民宿 阅读(4511) 评论(0) 推荐(1)
摘要: git是目前流行的分布式版本管理系统。 它拥有两套版本库,本地库和远程库,在不进行合并和删除之类的操作时这两套版本库互不影响。也因此其近乎所有的操作都是本地执行,所以在断网的情况下任然可以提交代码,切换分支。git又使用了SHA-1哈希算法确保了在文件传输时变得不完整、磁盘损坏导致数据丢失时能立即察 阅读全文
posted @ 2021-07-23 17:49 民宿 阅读(244) 评论(0) 推荐(0)
摘要: 在项目中使用Maven管理jar包依赖,往往会出现以下状况: 1、国内访问maven默认远程中央镜像特别慢; 2、使用阿里的镜像替代远程中央镜像; 3、阿里云镜像中缺少部分jar包; 4、同时使用私有仓库和公有仓库; 针对以上情况,我们就需要让Maven支持多仓库配置。 单独仓库配置 当只配置一个仓 阅读全文
posted @ 2021-07-23 15:31 民宿 阅读(20824) 评论(0) 推荐(1)
摘要: Flink运行时的组件 Flink运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher)。因为Flink是用Java和Scala 阅读全文
posted @ 2021-07-23 13:50 民宿 阅读(378) 评论(0) 推荐(0)
摘要: 背景 (1)问题背景 线上集群 Container 日志上报的事务集群 namenode rpc 持续飙高,影响到了 Yarn 分配 Container 的性能,任务提交数下降,导致整个集群的吞吐量下降。 (2)原因简介 作业提交到 Yarn 集群时,每个 NM 节点都会对每个 app 作业进行日志 阅读全文
posted @ 2021-07-23 13:11 民宿 阅读(1127) 评论(0) 推荐(0)
摘要: 一、聚合日志介绍 日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container 任务日志存在在各个NodeManager上,保存在"yarn.nodemana 阅读全文
posted @ 2021-07-23 13:09 民宿 阅读(516) 评论(0) 推荐(0)
摘要: 一、Spark 相关术语 Driver(通常用 SparkContext 代表 Drive):表示运行 Application的main() 函数,并创建 SparkContext。其中创建 SparkContext 的目的是为了准备 Spark 应用程序的运行环境。在 Spark 中由 Spark 阅读全文
posted @ 2021-07-23 13:05 民宿 阅读(332) 评论(0) 推荐(0)
摘要: 一、Yarn 架构 1.1 基本概念 Yarn 采用传统的 master-slave 架构模式,其主要由 4 种组件组成,它们的主要功能如下: ResourceManager(RM):全局资源管理器,负责整个系统的资源管理和分配; 处理客户端请求 启动/监控ApplicationMaster 监控N 阅读全文
posted @ 2021-07-23 12:02 民宿 阅读(358) 评论(0) 推荐(0)