• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
思想人生从关注生活开始
博客园    首页    新随笔    联系   管理    订阅  订阅
上一页 1 ··· 52 53 54 55 56 57 58 59 60 ··· 121 下一页
2023年3月12日
Apache Flink 分区算子Rescale剖析-史上最通俗易懂的Flink源代码深入分析教程
摘要: 1.概述 1.1定义 Rescale算子是一种轻量级的平衡分区算子,它将数据均匀分配到一部分分区中。Rescale算子适用于数据倾斜的情况下,但是相对于Rebalance算子,Rescale算子更加轻量级,对性能的影响更小。 1.2Rescale算子的实现流程 Rescale算子的实现流程如下: 获 阅读全文
posted @ 2023-03-12 01:05 JackYang 阅读(1124) 评论(1) 推荐(1)
Apache Flink 分区算子Rebalance剖析-史上最通俗易懂的Flink源代码深入分析教程
摘要: 1.概述 1.1定义 Rebalance算子是一种平衡分区算子,它将数据均匀分配到所有分区中。Rebalance算子适用于数据倾斜的情况下,可以使所有分区的数据量相近,避免某些分区的数据过多导致性能下降。 1.2Rebalance算子的实现流程 Apache Flink中的分区算子Rebalance 阅读全文
posted @ 2023-03-12 00:50 JackYang 阅读(1743) 评论(1) 推荐(1)
Apache Flink 分区算子Shuffle剖析-史上最通俗易懂的Flink源代码深入分析教程
摘要: 1.概述 1.1定义 Shuffle是Apache Flink中的一个分区算子,用于将数据流进行随机分区。它可以将数据流中的每个元素随机地分配到下游算子的一个分区中,从而实现数据的随机分布。 1.2Shuffle算子的实现流程 在Flink中,Shuffle算子可以将输入数据流的每个元素随机地分配到 阅读全文
posted @ 2023-03-12 00:08 JackYang 阅读(2154) 评论(1) 推荐(1)
2023年3月11日
Apache Flink 分区算子KeyBy剖析-史上最通俗易懂的Flink源代码深入分析教程
摘要: 1.概述 Apache Flink中的KeyBy算子是一种根据指定Key将数据流分区的算子。在使用KeyBy算子时,需要指定一个或多个Key,Flink会根据这些Key将数据流分成不同的分区,以便并行处理。 KeyBy算子通常用于实现基于Key的聚合操作,如求和、平均值等。它可以将具有相同Key的数 阅读全文
posted @ 2023-03-11 23:38 JackYang 阅读(6243) 评论(1) 推荐(2)
Flink核心概念-史上最通俗易懂的Flink源代码深入分析教程
摘要: Apache Flink是一个流式处理框架,它支持流和批处理,具有高性能、低延迟、高吞吐等优点。Flink的核心概念是DataStream和DataSet,它们分别代表流和批数据。DataStream和DataSet支持基于事件时间和处理时间的窗口操作、流数据的状态管理、分布式数据源和数据接收等功能 阅读全文
posted @ 2023-03-11 21:05 JackYang 阅读(873) 评论(1) 推荐(1)
作业调度-史上最通俗易懂的Flink源代码深入分析教程
摘要: 1.定义 Flink作业调度是将Flink作业提交到Flink集群上,并根据作业的执行计划和资源需求等信息对作业进行优化、调度和分配,从而实现高效、可靠的作业执行的过程 2.设计思路: 作业提交:Flink作业调度的第一步是将作业提交到集群上,提交方式可以通过命令行、Web界面或API等实现。 作业 阅读全文
posted @ 2023-03-11 17:29 JackYang 阅读(182) 评论(0) 推荐(1)
JobManager 数据结构-史上最通俗易懂的Flink源代码深入分析教程
摘要: 1.常用的数据结构定义 Flink中,JobManager内部维护了多个数据结构,用于存储和管理作业的元数据信息。以下是JobManager中常用的数据结构: JobGraph:JobGraph是Flink作业的执行计划,它描述了作业中各个算子之间的依赖关系,以及算子的并行度、数据分配等信息。Job 阅读全文
posted @ 2023-03-11 16:48 JackYang 阅读(299) 评论(0) 推荐(1)
Flink 架构-史上最通俗易懂的Flink源代码深入分析教程
摘要: Flink 是一个分布式系统,需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器,例如Hadoop YARN,但也可以设置作为独立集群甚至库运行。 本节概述了 Flink 架构,并且描述了其主要组件如何交互以执行应用程序和从故障中恢复。 Flink 集群剖析 Flink 阅读全文
posted @ 2023-03-11 15:55 JackYang 阅读(639) 评论(0) 推荐(1)
StreamGraph、JobGraph、ExecutionGraph以及物理执行图-史上最通俗易懂的Flink源代码深入分析教程
摘要: 1.定义 StreamGraph、JobGraph、ExecutionGraph以及物理执行图是Apache Flink中实现流处理的关键组件,它们之间存在着层次结构和依赖关系,用于执行流处理任务。 StreamGraph StreamGraph是Flink的逻辑执行图,描述了整个流处理任务的流程和 阅读全文
posted @ 2023-03-11 15:52 JackYang 阅读(393) 评论(1) 推荐(1)
SourceTransformation-史上最通俗易懂的Flink源代码深入分析教程
摘要: 1.定义 SourceTransformation的主要作用是将一个数据源转换为DataStream,以便对数据源进行各种处理操作,例如map、filter、join等。在Flink中,数据源可以是各种不同的数据源,例如Kafka、Socket、文件等。 2.使用示例 下面是一个简单的示例,演示如何 阅读全文
posted @ 2023-03-11 15:19 JackYang 阅读(127) 评论(1) 推荐(1)
上一页 1 ··· 52 53 54 55 56 57 58 59 60 ··· 121 下一页
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3