随笔分类 -  Flink

摘要:Flink默认重启策略是通过Flink的配置文件设置的flink-conf.yaml,配置参数restart-strategy定义采用的策略。 注意:如果启用了checkpoint并且没有显式配置重启策略,会默认使用fixeddelay策略,最大重试次数为Integer.MAX_VALUE。 1.固 阅读全文
posted @ 2023-06-15 10:21 再见傅里叶 阅读(880) 评论(0) 推荐(0)
摘要:spark streaming 的 checkpoint 仅仅是针对 driver 的故障恢复做了数据和元数据的 checkpoint。 而 flink 的checkpoint 机制要复杂很多,它采用的是轻量级的分布式快照,实现了每个算子的快照,及流动中的数据的快照。 阅读全文
posted @ 2023-06-14 15:48 再见傅里叶 阅读(176) 评论(0) 推荐(0)
摘要:MemoryStateBackend(只用于本地开发和调试,不用于生产)和FsStateBackend(如果Flink作业的状态很小或需要很低的延迟,则应该考虑FsStateBackend),这两种都是基于JVM堆。 RocksDBStateBackend:非分布式数据库,它通过Java Nativ 阅读全文
posted @ 2022-03-29 15:59 再见傅里叶 阅读(476) 评论(0) 推荐(0)
摘要:自定义trigger 继承 抽象类 Trigger<T, TimeWindow> 主要实现 Trigger类的四个方法(onElement、onEventTime、onProcessingTime、clear), 在onElement()方法中实现计数逻辑 。 在onEventTime()方法中实现 阅读全文
posted @ 2021-12-02 17:27 再见傅里叶 阅读(457) 评论(0) 推荐(0)
摘要:https://www.cnblogs.com/Allen-rg/p/11593528.html 阅读全文
posted @ 2021-08-19 14:54 再见傅里叶 阅读(59) 评论(0) 推荐(0)
摘要:flink yarn 除了启动日志在本地,真正的执行日志在yarn log中。 yarn常用命令: --查看某个yarn应用 yarn application -list |grep invoice yarn application -kill application_1526100291229_2 阅读全文
posted @ 2021-08-11 16:45 再见傅里叶 阅读(26) 评论(0) 推荐(0)
摘要:参考文章: http://blog.itpub.net/69982513/viewspace-2714497/ 结合点源码: https://blog.csdn.net/super_wj0820/article/details/90726768 阅读全文
posted @ 2021-08-06 10:35 再见傅里叶 阅读(94) 评论(0) 推荐(0)
摘要:Flink 在1.2(也就是很早就有了)中引入了Async I/O,在异步模式下,将IO操作异步化,单个并行可以连续发送多个请求,哪个请求先返回就先处理,从而在连续的请求间不需要阻塞式等待,大大提高了流处理效率。 常用方法就是AsyncDataStream.unorderedWait 或者Async 阅读全文
posted @ 2021-08-04 16:22 再见傅里叶 阅读(934) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/kisimple/article/details/89460031 https://blog.csdn.net/u013411339/article/details/113047283?utm_medium=distribute.pc_relevant.n 阅读全文
posted @ 2021-04-27 15:58 再见傅里叶 阅读(344) 评论(0) 推荐(0)
摘要:todo 阅读全文
posted @ 2021-04-26 14:32 再见傅里叶 阅读(71) 评论(0) 推荐(0)
摘要:State一般指一个具体的task/operator的状态。而Checkpoint则表示了一个Flink Job,在一个特定时刻的一份全局状态快照,即包含了所有task/operator的状态。 保存机制 StateBackend(状态后端) ,默认情况下,State 会保存在 TaskManage 阅读全文
posted @ 2021-03-11 17:53 再见傅里叶 阅读(442) 评论(0) 推荐(0)
摘要:https://my.oschina.net/u/3892023/blog/3007172 阅读全文
posted @ 2020-04-10 15:23 再见傅里叶 阅读(870) 评论(0) 推荐(0)
摘要:个人理解:watermark是全局机制针对所有的key,如果要解决同一个key的乱序迟到问题就需要用到Allowed Lateness机制。 因为一般都是按照某个key分组,需要的也是解决同一个key的乱序迟到问题。 https://blog.csdn.net/yangxiaobo118/artic 阅读全文
posted @ 2020-04-09 09:17 再见傅里叶 阅读(876) 评论(0) 推荐(0)
摘要:默认情况下,当watermark通过end-of-window之后,再有之前的数据到达时,这些数据会被删除。 为了避免有些迟到的数据被删除,因此产生了allowedLateness的概念。 简单来讲,allowedLateness就是针对event time而言,对于watermark超过end-o 阅读全文
posted @ 2020-03-24 09:01 再见傅里叶 阅读(3963) 评论(0) 推荐(2)
摘要:这篇文章https://blog.csdn.net/yljphp/article/details/88851092,举例子介绍了Flink如何通过waterMark+window机制来如何处理乱序时间。 自我感觉看了之后懂了百分之七八十。 阅读全文
posted @ 2020-03-03 10:19 再见傅里叶 阅读(559) 评论(0) 推荐(0)
摘要:https://www.cnblogs.com/huxi2b/p/7456936.html 阅读全文
posted @ 2019-12-25 18:48 再见傅里叶 阅读(1167) 评论(0) 推荐(0)
摘要:API见org.apache.flink.streaming.api.TimeCharacteristic 分别是event time(事件时间:事件发生时的时间),ingestion time(摄取时间:事件进入流处理系统的时间),processing time(处理时间:消息被计算处理的时间) 阅读全文
posted @ 2019-12-13 14:33 再见傅里叶 阅读(428) 评论(0) 推荐(0)
摘要:参考网址: https://blog.csdn.net/u4110122855/article/details/81360208 https://blog.csdn.net/u4110122855/article/details/81360381 1、流处理中Window的概念 流是无界的,我们不能 阅读全文
posted @ 2019-12-13 10:34 再见傅里叶 阅读(620) 评论(0) 推荐(0)
摘要:4.1 Local本地部署 Flink可以运行在 Linux、Mac OS X 和 Windows 上。本地模式的安装唯一需要的只是 Java 1.7.x或更高版本,本地运行会启动Single JVM,主要用于测试调试代码。 4.2 Standalone Cluster集群部署 需要将jersey- 阅读全文
posted @ 2019-11-27 09:41 再见傅里叶 阅读(666) 评论(0) 推荐(0)