随笔分类 -  [Flink]

Flink window
摘要:窗口计算 我们经常需要在一个时间窗口维度上对数据进行聚合,窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API,我们可以将数据流切分成一个个窗口,对窗口内的数据进行处理 按照有没有进行keyby分成了两种 不同的处理方式: 首先,我们要决定是否对一个DataStre 阅读全文

posted @ 2022-05-29 18:30 chaplinthink 阅读(156) 评论(0) 推荐(0)

Flink on Yarn和k8s
摘要:Yarn 架构 下图为作业提交到yarn的交互流程: 组件列表 ResourceManager (RM):ResourceManager (RM) 负责处理客户端请求、启动 / 监控 ApplicationMaster、监控 NodeManager、资源的分配与调度,包含 Scheduler 和 A 阅读全文

posted @ 2022-05-28 22:57 chaplinthink 阅读(1575) 评论(0) 推荐(0)

Flink如何处理update数据
摘要:问题 Flink实时统计GMV,如果订单金额下午变了该怎么处理 具体描述 实时统计每天的GMV,但是订单金额是会修改的。 订单存储在mysql,通过binlog解析工具实时同步到kafka.然后从kafka实时统计当日订单总额。 假设订单009 上午10点生成,金额为1000. 生成一条json数据 阅读全文

posted @ 2022-05-23 21:12 chaplinthink 阅读(774) 评论(0) 推荐(0)

Flink Catalog
摘要:Catalog 提供了元数据信息,例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。 阅读全文

posted @ 2022-05-18 21:32 chaplinthink 阅读(965) 评论(0) 推荐(0)

Flink Checkpoint & Savepoint
摘要:Flink checkpoint Checkpoint是Flink实现容错机制最核心的功能,能够根据配置周期性地基于Stream中各个Operator的状态来生成Snapshot,从而将这些状态数据定期持久化存储下来,从而将这些状态数据定期持久化存储下来,当Flink程序一旦意外崩溃时,重新运行程序 阅读全文

posted @ 2022-05-18 12:59 chaplinthink 阅读(568) 评论(0) 推荐(0)

Flink 状态编程
摘要:概念 在Flink架构体系中,有状态计算可以说是Flink非常重要的特性之一 Flink优势: 支持高吞吐、低延迟、高性能 支持事件时间Event_time概念 支持有状态计算 有状态计算是指: 在程序计算过程中,在Flink程序内部存储计算产生的中间结果,并提供给后续Function或算子计算结果 阅读全文

posted @ 2022-05-16 13:43 chaplinthink 阅读(308) 评论(0) 推荐(0)

Flink Time
摘要:基础概念 支持三种时间概念: Processing Time 时间递增 Ingestion Time : 摄入时间,数据进入Flink框架的时间,在Source Operator中设置,每个事件拿到当前时间作为时间戳,后续的时间窗口基于该时间 Event Time 支持一定程度的乱序 上一个 che 阅读全文

posted @ 2022-05-14 23:17 chaplinthink 阅读(59) 评论(0) 推荐(0)

Flink DataStream API
摘要:DataStream API主要可为分为三个部分,DataSource模块、Transformation模块以及DataSink模块。 DataSource模块 内置DataSource:文件数据源 读取类型(WatchType): 其中WatchType共分为两种模式: PROCESS_CONTI 阅读全文

posted @ 2022-05-13 12:34 chaplinthink 阅读(131) 评论(0) 推荐(0)

Flink CDC 与Hudi整合
摘要:本篇主要讲解Flink CDC与hudi整合实践, 探索新的湖仓一体架构 阅读全文

posted @ 2022-05-05 22:00 chaplinthink 阅读(1351) 评论(0) 推荐(0)

Flink CDC同步MySQL数据到Iceberg实践
摘要:Flink CDC同步MySQL分库分表数据到Iceberg数据湖实践 阅读全文

posted @ 2022-04-25 22:05 chaplinthink 阅读(2747) 评论(0) 推荐(0)

大数据各组件重要技术点总结
摘要:主要从架构、组件原理、业务场景等角度针对相关组件的技术要点进行总结 阅读全文

posted @ 2022-04-19 21:41 chaplinthink 阅读(859) 评论(0) 推荐(0)

Flink RetractStream示例及UDF函数实现
摘要:介绍 今天在Flink 1.7.2版本上跑一个Flink SQL 示例 RetractPvUvSQL,报 Exception in thread "main" org.apache.flink.table.api.ValidationException: SQL validation failed. 阅读全文

posted @ 2020-08-27 17:21 chaplinthink 阅读(1303) 评论(2) 推荐(0)

趣头条实时平台架构
摘要:趣头条实时计算架构经验总结学习 阅读全文

posted @ 2020-03-04 22:42 chaplinthink 阅读(271) 评论(0) 推荐(0)

Flink应用程序结构开发介绍
摘要:Flink程序遵循一定的编程模式。DataStream API 和 DataSet API 基本具有相同的程序结构。以下为一个流式程序的示例代码来对文本文件进行词频统计。 整个Flink 程序一共分为5步: 1. Flink执行环境 不同的执行环境决定了应用的类型: StreamExecutionE 阅读全文

posted @ 2019-12-08 17:44 chaplinthink 阅读(749) 评论(0) 推荐(1)

如何进行Flink项目构建,快速开发Flink应用程序?
摘要:项目模板 Flink应用项目可以使用Maven或SBT来构建项目,Flink针对这些构建工具提供了相应项目模板。 Maven模板命令如下,我们只需要根据提示输入应用项目的groupId、artifactId、version和package路径即可。 目录结构和我们使用IDEA创建的目录结构基本一样, 阅读全文

posted @ 2019-11-26 21:53 chaplinthink 阅读(1084) 评论(0) 推荐(0)

Zookeeper的典型应用场景(转)
摘要:在寒假前,完成了Zookeeper系列的前5篇文章,主要是分布式的相关理论,包括CAP,BASE理论,分布式数据一致性算法:2PC,3PC,Paxos算法,Zookeeper的相关基本特性,ZAB协议。今天,完成Zookeeper系列的最后一篇也是最为重要的内容:Zookeeper的典型应用场景的介 阅读全文

posted @ 2019-09-10 12:15 chaplinthink 阅读(263) 评论(0) 推荐(0)

Kafka 消费者
摘要:应用从Kafka中读取数据需要使用KafkaConsumer订阅主题,然后接收这些主题的消息。在我们深入这些API之前,先来看下几个比较重要的概念。 Kafka消费者相关的概念 消费者与消费组 假设这么个场景:我们从Kafka中读取消息,并且进行检查,最后产生结果数据。我们可以创建一个消费者实例去做 阅读全文

posted @ 2019-03-24 23:44 chaplinthink 阅读(524) 评论(0) 推荐(1)

Apache Flink 分布式运行时环境
摘要:Tasks and Operator Chains(任务及操作链) 在分布式环境下,Flink将操作的子任务链在一起组成一个任务,每一个任务在一个线程中执行。将操作链在一起是一个不错的优化:它减少了线程间的切换和缓冲,提升了吞吐量同时减低了时延。这些链式行为是可配置的,详情请见: " chainin 阅读全文

posted @ 2019-01-06 10:20 chaplinthink 阅读(1064) 评论(0) 推荐(0)

Apache Flink 数据流编程模型
摘要:抽象等级(Levels of Abstraction) Flink提供不同级别的抽象来开发流/批处理应用程序。 Statefule Stream Processing: 是最低级别(底层)的抽象,只提供有状态的流。它通过ProcessFunction嵌入到DataStream API之中。它使得用户 阅读全文

posted @ 2019-01-05 12:06 chaplinthink 阅读(573) 评论(0) 推荐(0)

导航