随笔分类 - Flink
摘要:https://shimo.im/docs/kwqGkrTGPCDP8VcR/read https://www.bilibili.com/video/BV124411P7V9?from=search&seid=7160369370774006313 视频和笔记配合食用更佳。
阅读全文
摘要:原因:因为Flink 加载 table Factory 使用的时SPI机制,而正常的flink jar包是不包含META-INF.services 路径的,需要自己去添加 org.apache.flink.table.factories.TableFactory # Licensed to the
阅读全文
摘要:环境准备 MySQL(开启binlog) Kafka(使用内嵌式debezium则不需要) debezium连接器 官网参考 https://debezium.io/documentation/reference/1.3/tutorial.html 在 Kafka 环境下安装 debezium 连接
阅读全文
摘要:附上官网链接 https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/ops/deployment/hadoop.html 方法一: 方法二: 个人体验 在我配置了Hadoop_classpath之后,还是会显示 org.apa
阅读全文
摘要:需求 对订单信息流进行监控,15分钟之内没有支付的发出警告 Flink CEP 实现 import org.apache.flink.cep.scala.{CEP, PatternStream} import org.apache.flink.cep.scala.pattern.Pattern im
阅读全文
摘要:需求 将五分钟之内的订单信息和支付信息进行对账,对不上的发出警告 代码实现 import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor} import org.apache.flink.api.scala.ty
阅读全文
摘要:需求 查询一个小时之内的用户访问量(一个用户算一个) 难点:如果用户量很多,要想用Set等数据结构实现去重不太现实,随时都会OOM,这时就得利用布隆过滤器,先判断user是否存在,不存在则计数+1,存在则不做计算,这样能节省大量的内存空间 利用Flink官方实现的布隆过滤器来实现 package p
阅读全文
摘要:需求 求每个小时内用户点击量的TOP3,每五分钟更新一次 bean: 利用底层API实现 import java.sql.Timestamp import org.apache.flink.api.common.functions.AggregateFunction import org.apach
阅读全文