随笔档案「2023年3月11日」：Apache Flink 分区算子KeyBy剖析-史上最通... - JackYang

2023年3月11日

Apache Flink 分区算子KeyBy剖析-史上最通俗易懂的Flink源代码深入分析教程

摘要： 1.概述 Apache Flink中的KeyBy算子是一种根据指定Key将数据流分区的算子。在使用KeyBy算子时，需要指定一个或多个Key，Flink会根据这些Key将数据流分成不同的分区，以便并行处理。 KeyBy算子通常用于实现基于Key的聚合操作，如求和、平均值等。它可以将具有相同Key的数阅读全文

posted @ 2023-03-11 23:38 JackYang 阅读(6445) 评论(1) 推荐(3)

Flink核心概念-史上最通俗易懂的Flink源代码深入分析教程

摘要： Apache Flink是一个流式处理框架，它支持流和批处理，具有高性能、低延迟、高吞吐等优点。Flink的核心概念是DataStream和DataSet，它们分别代表流和批数据。DataStream和DataSet支持基于事件时间和处理时间的窗口操作、流数据的状态管理、分布式数据源和数据接收等功能阅读全文

posted @ 2023-03-11 21:05 JackYang 阅读(914) 评论(1) 推荐(1)

作业调度-史上最通俗易懂的Flink源代码深入分析教程

摘要： 1.定义 Flink作业调度是将Flink作业提交到Flink集群上，并根据作业的执行计划和资源需求等信息对作业进行优化、调度和分配，从而实现高效、可靠的作业执行的过程 2.设计思路：作业提交：Flink作业调度的第一步是将作业提交到集群上，提交方式可以通过命令行、Web界面或API等实现。作业阅读全文

posted @ 2023-03-11 17:29 JackYang 阅读(220) 评论(0) 推荐(1)

JobManager 数据结构-史上最通俗易懂的Flink源代码深入分析教程

摘要： 1.常用的数据结构定义 Flink中，JobManager内部维护了多个数据结构，用于存储和管理作业的元数据信息。以下是JobManager中常用的数据结构： JobGraph：JobGraph是Flink作业的执行计划，它描述了作业中各个算子之间的依赖关系，以及算子的并行度、数据分配等信息。Job 阅读全文

posted @ 2023-03-11 16:48 JackYang 阅读(336) 评论(0) 推荐(1)

Flink 架构-史上最通俗易懂的Flink源代码深入分析教程

摘要： Flink 是一个分布式系统，需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器，例如Hadoop YARN，但也可以设置作为独立集群甚至库运行。本节概述了 Flink 架构，并且描述了其主要组件如何交互以执行应用程序和从故障中恢复。 Flink 集群剖析 Flink 阅读全文

posted @ 2023-03-11 15:55 JackYang 阅读(694) 评论(0) 推荐(1)

StreamGraph、JobGraph、ExecutionGraph以及物理执行图-史上最通俗易懂的Flink源代码深入分析教程

摘要： 1.定义 StreamGraph、JobGraph、ExecutionGraph以及物理执行图是Apache Flink中实现流处理的关键组件，它们之间存在着层次结构和依赖关系，用于执行流处理任务。 StreamGraph StreamGraph是Flink的逻辑执行图，描述了整个流处理任务的流程和阅读全文

posted @ 2023-03-11 15:52 JackYang 阅读(423) 评论(1) 推荐(1)

SourceTransformation-史上最通俗易懂的Flink源代码深入分析教程

摘要： 1.定义 SourceTransformation的主要作用是将一个数据源转换为DataStream，以便对数据源进行各种处理操作，例如map、filter、join等。在Flink中，数据源可以是各种不同的数据源，例如Kafka、Socket、文件等。 2.使用示例下面是一个简单的示例，演示如何阅读全文

posted @ 2023-03-11 15:19 JackYang 阅读(158) 评论(1) 推荐(1)

DataStream-史上最通俗易懂的Flink源代码深入分析教程

摘要： 1.定义在Flink中，DataStream是一个分布式数据集，表示无限流或有限流的数据流。DataStream可以由一个或多个数据源创建，数据源可以是文件、集合、Kafka主题等。DataStream提供了一组API方法，可以对数据流进行转换、过滤、聚合等操作，并将结果发送到Sink（例如文件、阅读全文

posted @ 2023-03-11 14:56 JackYang 阅读(528) 评论(0) 推荐(1)

StreamExecutionEnvironment-史上最通俗易懂的Flink源代码深入分析教程

摘要： 1.定义 StreamExecutionEnvironment是Flink中用于定义和执行流处理程序的主要类。它提供了一系列函数和方法来配置流处理程序的执行环境（例如并行度、checkpoint、时间特性），并将其部署到Flink集群中运行。 2.主要功能和设计思路提供编程接口StreamExec 阅读全文

posted @ 2023-03-11 13:43 JackYang 阅读(1621) 评论(1) 推荐(1)