摘要: WaterMark(水位线): 对由于网络、分布式等问题造成的乱序数据,事件不是严格地按照事件的 EventTime 顺序排列。一旦出现乱序,只根据 EventTime 决定 window 运行,不能明确保证数据是否到位。WaterMark 就是保证一个特定的事件后,必须出发 window 进行计算 阅读全文
posted @ 2021-09-13 21:43 墨梅青莲 阅读(192) 评论(0) 推荐(0)
摘要: Flink 流式处理中,涉及如下时间: Event Time:事件创建时间 Ingestion Time:数据进入 Flink 时间 Processing Time:每一个执行基于时间操作算子的本地系统时间 若要使用 Event Time,需要环境变量引入时间属性:(1.12默认使用事件时间,不需要 阅读全文
posted @ 2021-09-13 11:29 墨梅青莲 阅读(74) 评论(0) 推荐(0)
摘要: Window 是无限数据流处理的核心,Window 将无限数据流切割成有限块进行处理(将一个无限的 stream 拆分成有限大小的 “bucket”桶,在桶上做计算处理) Window 可以分成两大类: CountWindow(根据 数据量):根据窗口中相同的 key 数触发执行(不是输入元素总个数 阅读全文
posted @ 2021-09-13 10:26 墨梅青莲 阅读(75) 评论(0) 推荐(0)
摘要: flink 的对外输出操作都要利用 Sink 完成,常用的 Sink 有 kafka、 redis、elasticsearch、jdbc等。 1、首先引入对应的 connector 依赖 2、创建类实现在 sink 中的方法 3、最后 addSink 阅读全文
posted @ 2021-09-13 10:16 墨梅青莲 阅读(72) 评论(0) 推荐(0)
摘要: Flink 在运行时包含四个组件: JobManager(作业管理器): 控制一个应用程序运行的主进程。负责向 ResourceManager 申请资源,负责所有需要中央协调的操作(比如说 检查点的协调) ResourceManager(资源管理器): 负责管理 TaskManager 的 slot 阅读全文
posted @ 2021-09-12 22:30 墨梅青莲 阅读(133) 评论(0) 推荐(0)
摘要: flink的部署模式有两种:一种是单独部署,一种是yarn来进行一个资源的调度 Standalone模式: flink自己来做一个资源的调度分配,通常结合Zookeeper来进行一个高可用。 Yarn模式: yarn模式下又分成两种,一种是 Session-Cluster ,另一种是 Per-Job 阅读全文
posted @ 2021-09-12 22:01 墨梅青莲 阅读(559) 评论(0) 推荐(0)
摘要: ods:数据引入层 (原始数据导入,不做修改) dwd:公共汇总粒度事实层(粒度不变,提供数据质量) dws:明细粒度事实层(最细粒度 宽表层) ads:数据应用层(根据指标构建) 阅读全文
posted @ 2021-09-10 10:29 墨梅青莲 阅读(40) 评论(0) 推荐(0)
摘要: 一、数仓建模目的 访问性能:数据快速查询,减少io 数据成本:减少数据冗余,计算结果服用,降低存储和计算成本 使用效率:改善用户应用体验,提高使用数据效率 数据质量:改善数据统计口径的不一致,减少数据计算错误的可能性,提工高质量、一致的数据访问平台 二、数仓建模方法 1、维度建模:按照事实表、维表来 阅读全文
posted @ 2021-09-10 10:14 墨梅青莲 阅读(1357) 评论(0) 推荐(0)
摘要: source 是flink的数据源,简单介绍四种读取数据的方式: 1.从集合中读取 2.从文件中读取 3.从kafka中读取 4.自定义Source 1 package com.jy.bjz.source; 2 3 import org.apache.flink.api.common.seriali 阅读全文
posted @ 2021-09-09 15:29 墨梅青莲 阅读(188) 评论(0) 推荐(0)
摘要: 查看Ubuntu openssh 版本 ssh -V 阅读全文
posted @ 2021-09-08 17:08 墨梅青莲 阅读(799) 评论(0) 推荐(0)