摘要: WaterMark(水位线): 对由于网络、分布式等问题造成的乱序数据,事件不是严格地按照事件的 EventTime 顺序排列。一旦出现乱序,只根据 EventTime 决定 window 运行,不能明确保证数据是否到位。WaterMark 就是保证一个特定的事件后,必须出发 window 进行计算 阅读全文
posted @ 2021-09-13 21:43 墨梅青莲 阅读(192) 评论(0) 推荐(0)
摘要: Flink 流式处理中,涉及如下时间: Event Time:事件创建时间 Ingestion Time:数据进入 Flink 时间 Processing Time:每一个执行基于时间操作算子的本地系统时间 若要使用 Event Time,需要环境变量引入时间属性:(1.12默认使用事件时间,不需要 阅读全文
posted @ 2021-09-13 11:29 墨梅青莲 阅读(74) 评论(0) 推荐(0)
摘要: Window 是无限数据流处理的核心,Window 将无限数据流切割成有限块进行处理(将一个无限的 stream 拆分成有限大小的 “bucket”桶,在桶上做计算处理) Window 可以分成两大类: CountWindow(根据 数据量):根据窗口中相同的 key 数触发执行(不是输入元素总个数 阅读全文
posted @ 2021-09-13 10:26 墨梅青莲 阅读(75) 评论(0) 推荐(0)
摘要: flink 的对外输出操作都要利用 Sink 完成,常用的 Sink 有 kafka、 redis、elasticsearch、jdbc等。 1、首先引入对应的 connector 依赖 2、创建类实现在 sink 中的方法 3、最后 addSink 阅读全文
posted @ 2021-09-13 10:16 墨梅青莲 阅读(72) 评论(0) 推荐(0)