文章分类 -  Flink

上一页 1 2
Window与WindowAll
摘要:Window算子是可以设置并行度 dataStream.keyBy(0).window(TumblingEventTimeWindows.of(Time.seconds(5))).process(new MyProcess()).setParallelism(4); WindowAll 算子并行度始 阅读全文
posted @ 2022-05-10 18:09 溪水静幽 阅读(76) 评论(0) 推荐(0)
Sink到ES
摘要:Flink 执行流分析作业,作业摄取数据流,应用转换来分析、转换和建模动态数据,并将其结果写入 Elasticsearch 索引。Kibana 连接到索引并查询它以获取要可视化的数据。 public class EsDemo { public static void main(String[] ar 阅读全文
posted @ 2022-05-06 16:16 溪水静幽 阅读(66) 评论(0) 推荐(0)
WaterMark
摘要:EventTime: 事件发生时间,事件发生所在设备的当地时间,比如一个点击事件的时间发生时间,即用户点击操作所在的手机或电脑的时间 IngestionTime:事件摄入时间,事件进入Flink的时间 processTime:事件处理时间,事件被处理的时间,就是由机器的系统时间来决定 水位线:支持事 阅读全文
posted @ 2022-05-02 19:11 溪水静幽 阅读(509) 评论(0) 推荐(0)
ProcessFunction 解析
摘要:抽象类 ProcessFunction 继承了AbstractRichFunction,有两个泛型类型参数: I 表示 Input,也就是输入的数据类型; O 表示Output,也就是处理完成之后输出的数据类型。 内部单独定义了两个方法:一个是必须要实现的抽象方法.processElement(); 阅读全文
posted @ 2022-05-02 15:43 溪水静幽 阅读(348) 评论(0) 推荐(0)
Window Function
摘要:Window Function在窗口触发后,负责对窗口内的元素进行计算。Window Function分为两类: 增量聚合和全量聚合。 增量聚合: 窗口不维护原始数据,只维护中间结果,每次基于中间结果和增量数据进行聚合。如: ReduceFunction、AggregateFunction。 全量聚 阅读全文
posted @ 2022-05-01 23:07 溪水静幽 阅读(97) 评论(0) 推荐(0)
Table API概念
摘要:创建 TableEnvironment TableEnvironment负责: 在内部的 catalog 中注册 Table 注册外部的 catalog 加载可插拔模块 执行 SQL 查询 注册自定义函数 (scalar、table 或 aggregation) DataStream 和 Table 阅读全文
posted @ 2022-04-30 18:45 溪水静幽 阅读(575) 评论(0) 推荐(0)
Flink Standalone Cluster
摘要:Flink 支持使用多种部署模式来满足不同规模应用的需求,常见的有单机模式,Standalone Cluster 模式 单机模式 单机模式是一种开箱即用的模式,可以在单台服务器上运行,适用于日常的开发和调试。具体操作步骤如下: tar -zxvf flink-1.9.1-bin-scala_2.12 阅读全文
posted @ 2021-12-12 19:59 溪水静幽 阅读(101) 评论(0) 推荐(0)
Flink 状态管理
摘要:1、状态分类 Flink重要的特性就是其支持有状态计算。即将中间的计算结果进行保存,提供给后续的计算使用: Flink 又将状态 (State) 分为 Keyed State 与 Operator State: 算子状态 算子状态 (Operator State):状态是和算子进行绑定的,一个算子的 阅读全文
posted @ 2021-12-05 20:05 溪水静幽 阅读(595) 评论(0) 推荐(0)
Flink Windows
摘要:大多数场景,需要统计数据流都是无界的,因此无法等待整个数据流终止后才进行统计。通常情况下,只需要对某个时间范围或者数量范围内的数据进行统计分析:如每隔五分钟统计一次过去一小时内所有商品的点击量;或者每发生1000次点击后,都去统计一下每个商品点击率的占比。在 Flink 中,使用窗口 (Window 阅读全文
posted @ 2021-11-22 23:32 溪水静幽 阅读(266) 评论(0) 推荐(0)
分布式缓存
摘要:object DistributeCacheApp { def main(args: Array[String]): Unit = { val env = ExecutionEnvironment.getExecutionEnvironment val filePath = "D:\\a.txt" 阅读全文
posted @ 2021-10-30 19:40 溪水静幽 阅读(22) 评论(0) 推荐(0)
RichFunction&RichMapFunction
摘要:Rich接口可以获取运行环境的上下文,拥有一些生命周期方法; 1、默认生命周期方法, 初始化方法, 在每个并行度上只会被调用一次, 而且先被调用 2、默认生命周期方法, 最后一个方法, 做一些清理工作, 在每个并行度上只调用一次, 而且是最后被调用 3、getRuntimeContext()方法提供 阅读全文
posted @ 2021-10-30 15:52 溪水静幽 阅读(800) 评论(0) 推荐(0)
Flink Sink
摘要:使用 Flink 进行数据处理时,数据经 Data Source 流入,通过系列 Transformations 的转化,最终可以通过 Sink 将计算结果进行输出,Flink Data Sinks 就是用于定义数据流最终的输出位置。Flink 提供了几个较为简单的 Sink API 用于日常的开发 阅读全文
posted @ 2021-09-25 22:58 溪水静幽 阅读(401) 评论(0) 推荐(0)
Transformation
摘要:Flink 的 Transformations 操作主要用于将一个和多个 DataStream 按需转换成新的 DataStream。主要分为以下三类: DataStream Transformations:进行数据流相关转换操作; Physical partitioning:物理分区。Flink 阅读全文
posted @ 2021-09-20 23:16 溪水静幽 阅读(593) 评论(0) 推荐(0)
Flink Data Source
摘要:Flink Data Source 用于定义 Flink 程序的数据来源。 基于文件构建 1. readTextFile(path):按照 TextInputFormat 格式读取文本文件,并将其内容以字符串的形式返回。示例如下: env.readTextFile(filePath).print() 阅读全文
posted @ 2021-09-12 22:52 溪水静幽 阅读(268) 评论(0) 推荐(0)
词频统计
摘要:一个文件中统计每个单词出现的频率,分隔符为\t Java实现 public static void streamSource(String path) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnviron 阅读全文
posted @ 2021-08-29 19:50 溪水静幽 阅读(212) 评论(0) 推荐(0)
Flink 核心概念综述
摘要:Flink 是一个分布式的流处理框架,能够对有界和无界的数据流进行高效的处理。核心是流处理,也能支持批处理,Flink 将批处理看成是流处理的一种特殊情况,即数据流是有明确界限的。这和 Spark Streaming 的思想是完全相反的,Spark Streaming 的核心是批处理,将流处理看成是 阅读全文
posted @ 2021-08-29 17:26 溪水静幽 阅读(307) 评论(0) 推荐(0)

上一页 1 2