[Flink] - 随笔分类 - chaplinthink

Flink window

摘要：窗口计算我们经常需要在一个时间窗口维度上对数据进行聚合，窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API，我们可以将数据流切分成一个个窗口，对窗口内的数据进行处理按照有没有进行keyby分成了两种不同的处理方式: 首先，我们要决定是否对一个DataStre 阅读全文

posted @ 2022-05-29 18:30 chaplinthink 阅读(162) 评论(0) 推荐(0)

Flink on Yarn和k8s

摘要：Yarn 架构下图为作业提交到yarn的交互流程：组件列表 ResourceManager (RM)：ResourceManager (RM) 负责处理客户端请求、启动 / 监控 ApplicationMaster、监控 NodeManager、资源的分配与调度，包含 Scheduler 和 A 阅读全文

posted @ 2022-05-28 22:57 chaplinthink 阅读(1583) 评论(0) 推荐(0)

Flink如何处理update数据

摘要：问题 Flink实时统计GMV,如果订单金额下午变了该怎么处理具体描述实时统计每天的GMV,但是订单金额是会修改的。订单存储在mysql,通过binlog解析工具实时同步到kafka.然后从kafka实时统计当日订单总额。假设订单009 上午10点生成，金额为1000. 生成一条json数据阅读全文

posted @ 2022-05-23 21:12 chaplinthink 阅读(779) 评论(0) 推荐(0)

Flink Catalog

摘要：Catalog 提供了元数据信息，例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。阅读全文

posted @ 2022-05-18 21:32 chaplinthink 阅读(966) 评论(0) 推荐(0)

Flink Checkpoint & Savepoint

摘要：Flink checkpoint Checkpoint是Flink实现容错机制最核心的功能，能够根据配置周期性地基于Stream中各个Operator的状态来生成Snapshot，从而将这些状态数据定期持久化存储下来，从而将这些状态数据定期持久化存储下来，当Flink程序一旦意外崩溃时，重新运行程序阅读全文

posted @ 2022-05-18 12:59 chaplinthink 阅读(571) 评论(0) 推荐(0)

Flink 状态编程

摘要：概念在Flink架构体系中，有状态计算可以说是Flink非常重要的特性之一 Flink优势：支持高吞吐、低延迟、高性能支持事件时间Event_time概念支持有状态计算有状态计算是指: 在程序计算过程中，在Flink程序内部存储计算产生的中间结果，并提供给后续Function或算子计算结果阅读全文

posted @ 2022-05-16 13:43 chaplinthink 阅读(311) 评论(0) 推荐(0)

Flink Time

摘要：基础概念支持三种时间概念： Processing Time 时间递增 Ingestion Time : 摄入时间，数据进入Flink框架的时间，在Source Operator中设置，每个事件拿到当前时间作为时间戳，后续的时间窗口基于该时间 Event Time 支持一定程度的乱序上一个 che 阅读全文

posted @ 2022-05-14 23:17 chaplinthink 阅读(64) 评论(0) 推荐(0)

Flink DataStream API

摘要：DataStream API主要可为分为三个部分，DataSource模块、Transformation模块以及DataSink模块。 DataSource模块内置DataSource：文件数据源读取类型（WatchType）: 其中WatchType共分为两种模式: PROCESS_CONTI 阅读全文

posted @ 2022-05-13 12:34 chaplinthink 阅读(143) 评论(0) 推荐(0)

Flink CDC 与Hudi整合

摘要：本篇主要讲解Flink CDC与hudi整合实践, 探索新的湖仓一体架构阅读全文

posted @ 2022-05-05 22:00 chaplinthink 阅读(1359) 评论(0) 推荐(0)

Flink CDC同步MySQL数据到Iceberg实践

摘要：Flink CDC同步MySQL分库分表数据到Iceberg数据湖实践阅读全文

posted @ 2022-04-25 22:05 chaplinthink 阅读(2759) 评论(0) 推荐(0)

大数据各组件重要技术点总结

摘要：主要从架构、组件原理、业务场景等角度针对相关组件的技术要点进行总结阅读全文

posted @ 2022-04-19 21:41 chaplinthink 阅读(865) 评论(0) 推荐(0)

Flink RetractStream示例及UDF函数实现

摘要：介绍今天在Flink 1.7.2版本上跑一个Flink SQL 示例 RetractPvUvSQL，报 Exception in thread "main" org.apache.flink.table.api.ValidationException: SQL validation failed. 阅读全文

posted @ 2020-08-27 17:21 chaplinthink 阅读(1327) 评论(2) 推荐(0)

趣头条实时平台架构

摘要：趣头条实时计算架构经验总结学习阅读全文

posted @ 2020-03-04 22:42 chaplinthink 阅读(272) 评论(0) 推荐(0)

Flink应用程序结构开发介绍

摘要：Flink程序遵循一定的编程模式。DataStream API 和 DataSet API 基本具有相同的程序结构。以下为一个流式程序的示例代码来对文本文件进行词频统计。整个Flink 程序一共分为5步: 1. Flink执行环境不同的执行环境决定了应用的类型: StreamExecutionE 阅读全文

posted @ 2019-12-08 17:44 chaplinthink 阅读(752) 评论(0) 推荐(1)

如何进行Flink项目构建,快速开发Flink应用程序?

摘要：项目模板 Flink应用项目可以使用Maven或SBT来构建项目，Flink针对这些构建工具提供了相应项目模板。 Maven模板命令如下，我们只需要根据提示输入应用项目的groupId、artifactId、version和package路径即可。目录结构和我们使用IDEA创建的目录结构基本一样，阅读全文

posted @ 2019-11-26 21:53 chaplinthink 阅读(1093) 评论(0) 推荐(0)

Zookeeper的典型应用场景(转)

摘要：在寒假前，完成了Zookeeper系列的前5篇文章，主要是分布式的相关理论，包括CAP，BASE理论，分布式数据一致性算法：2PC，3PC，Paxos算法，Zookeeper的相关基本特性，ZAB协议。今天，完成Zookeeper系列的最后一篇也是最为重要的内容：Zookeeper的典型应用场景的介阅读全文

posted @ 2019-09-10 12:15 chaplinthink 阅读(264) 评论(0) 推荐(0)

Kafka 消费者

摘要：应用从Kafka中读取数据需要使用KafkaConsumer订阅主题，然后接收这些主题的消息。在我们深入这些API之前，先来看下几个比较重要的概念。 Kafka消费者相关的概念消费者与消费组假设这么个场景：我们从Kafka中读取消息，并且进行检查，最后产生结果数据。我们可以创建一个消费者实例去做阅读全文

posted @ 2019-03-24 23:44 chaplinthink 阅读(533) 评论(0) 推荐(1)

Apache Flink 分布式运行时环境

摘要：Tasks and Operator Chains(任务及操作链) 在分布式环境下，Flink将操作的子任务链在一起组成一个任务，每一个任务在一个线程中执行。将操作链在一起是一个不错的优化:它减少了线程间的切换和缓冲，提升了吞吐量同时减低了时延。这些链式行为是可配置的，详情请见: " chainin 阅读全文

posted @ 2019-01-06 10:20 chaplinthink 阅读(1067) 评论(0) 推荐(0)

Apache Flink 数据流编程模型

摘要：抽象等级(Levels of Abstraction) Flink提供不同级别的抽象来开发流/批处理应用程序。 Statefule Stream Processing: 是最低级别（底层）的抽象，只提供有状态的流。它通过ProcessFunction嵌入到DataStream API之中。它使得用户阅读全文

posted @ 2019-01-05 12:06 chaplinthink 阅读(588) 评论(0) 推荐(0)

随笔分类 - [Flink]