09 2020 档案
flink cdc demo
摘要:Flink 1.11 发布了支持 MySQL CDC(Changelog Data Capture) 可以直接解析 Canal / Debezium 格式的 MySQL Binlog 对于实时处理程序,MySQL 的 Binlog 是很重要的数据源(上一个项目几乎所有实时数据都是来自业务系统的数据库
阅读全文
Flink SQL 流式写数据到 Hive
摘要:Flink 1.11 版本对SQL的优化是很多的,其中最重要的一点就是 hive 功能的完善,不再只是作为持久化的 Catalog,而是可以用原生的 Flink SQL 流式的写数据到入 hive中 本文使用官网 “Streaming Writing” 案例 (https://ci.apache.o
阅读全文
Flink 流模式跑离线任务
摘要:通常的认识是:Flink 流模式跑流任务,批模式跑批任务,用流模式跑离线任务也是个有意思的事情 虽然新版 Flink 已经在 sql 上实现了一定程度的流批一体,但是 DataStream 和 DataSet API 还是相差比较大的 用 Flink 跑离线任务也是机缘巧合(也是必然,毕竟我不会 S
阅读全文
【源码】flink 窗口数据触发清理流程
摘要:前言: Flink 窗口会将当前窗口的数据存储在状态中,等待窗口结束的时候触发计算,那窗口状态什么时候清理? (前提: 窗口的主要逻辑是在 WindowOperator 中完成的) 翻一下 WindowOperator 的代码,可以看到下面这个方法,“Drops all state for the
阅读全文
Flink 动态窗口统计面试题-实现
摘要:之前分享了一个 Flink 的面试题,这里简单回顾下内容: 有两个输入源,一个是命令流,一个是数据流 需要将命令流进行广播,然后和数据流进行connect,根据命令流指定的命令进行统计 实现一个输出到终端的 sink,将统计结果打印出来,每一条记录包括 taskId, targetAttr, per
阅读全文
【源码】FlinkKafkaConsumer 消费 kafka 流程
摘要:之前看 Flink Source 的 metrics 时候,看到 FlinkKafkaConsuemr 消费 Kafka 数据的代码,感觉比较有意思,就仔细看下了 大致流程如下: FlinkKafKaConsuemr 的启动流程就不细讲了,直接跳到 FlinkKafkaConsumerBase.ru
阅读全文
浙公网安备 33010602011771号