12 2019 档案
摘要:一:流处理的基本概念 流处理系统本身有很多自己的特点。一般来说,由于需要支持无限数据集的处理,流处理系统一般采用一种数据驱动的处理方式。它会提前设置一些算子,然后等到数据到达后对数据进行处理。 为了表达复杂的逻辑,flink在内的分布式流处理引擎,一般采用 DAG 图来表示整个计算逻辑,其中 DAG
阅读全文
摘要:一:连接外部存储系统的方式 flink是新一代的流式计算引擎,它需要从不同的第三方存储引擎读取数据,进行一定的处理,写出到不同的存储引擎,Connector就相当于是一个连接器,连接flink系统和外界存储系统。 常用的连接方式有以下几种: flink内部预定义的source和sink flink内
阅读全文
摘要:一:WaterMark 本质:时间戳 作用:用于处理乱序事件 适用场景:基于事件时间做窗口运算 产生频率:默认是来一条数据下发一次watermark,但是可以调整setAutoWatermarkInterval参数设置下发watermark的时间间隔,性能会有一定的提升。 多并发的情况下,取wate
阅读全文