随笔分类 -  大数据-Flink

摘要:DML:窗口聚合 Flink SQL 中支持的 4 种窗口的运算。 ⭐ 滚动窗口(TUMBLE) ⭐ 滑动窗口(HOP) ⭐ Session 窗口(SESSION) ⭐ 渐进式窗口(CUMULATE) 1.滚动窗口(TUMBLE) ⭐ 滚动窗口定义:滚动窗口将每个元素指定给指定窗口大小的窗口。滚动窗 阅读全文
posted @ 2025-06-03 11:27 业余砖家 阅读(79) 评论(0) 推荐(0)
摘要:问题现象: FlinkSQL任务任务没有报错,但是目标端Starrocks数据库中一致没有数据生成。在Web UI页面的Watermark页签中可以看到:No Watermark (Watermarks are only available if EventTime is used)。 查看Jobm 阅读全文
posted @ 2025-05-27 08:42 业余砖家 阅读(67) 评论(0) 推荐(0)
摘要:‌一、Flink核心技术原理‌ 1. ‌流批一体架构‌ ‌统一处理模型‌:Flink采用流处理为核心的设计,批处理视为有界数据流的特例,通过同一运行时引擎处理实时流和离线批数据。 ‌时间窗口机制‌:支持事件时间(Event Time)、处理时间(Processing Time)和摄入时间(Inges 阅读全文
posted @ 2025-04-27 17:16 业余砖家 阅读(192) 评论(0) 推荐(0)
摘要:当使用 FlinkSQL 或 BlinkSQL 进行开发时,虽然底层执行引擎仍然是 Flink,但调优的侧重点与 DataStream API 有所不同。 以下是针对 SQL 模式的系统化调优方法: 一、SQL 执行计划优化 1. 执行计划分析 -- 查看逻辑执行计划 EXPLAIN PLAN FO 阅读全文
posted @ 2025-04-22 19:25 业余砖家 阅读(106) 评论(0) 推荐(0)
摘要:在使用FlinkSQL进行性能调优时,需从执行计划、资源配置、状态管理、数据倾斜处理等多个维度综合优化。 以下是关键调优方向及具体方法: 一、资源配置与并行度优化 并行度设置 根据数据源分区数(如Kafka分区数)设置并行度,确保资源充分利用。例如:SET 'parallelism.default' 阅读全文
posted @ 2025-04-22 19:16 业余砖家 阅读(193) 评论(0) 推荐(0)
摘要:1. 简单介绍一下Flink Flink是一个面向流处理和批处理的分布式数据计算引擎,能够基于同一个Flink 运行,可以提供流处理和批处理两种类型的功能。 在 Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流,这就是所谓的有界流和无界流。 Flink的核心 阅读全文
posted @ 2024-12-19 09:57 业余砖家 阅读(275) 评论(0) 推荐(0)
摘要:1.组件版本 组件 版本 Kafka 3.7.0 Flink 1.17.0 MySQL 8.0.32 2.Kafka生产数据 ./kafka-console-producer.sh --broker-list hadoop01:9092,hadoop02:9092,hadoop03:9092 --t 阅读全文
posted @ 2024-08-20 18:08 业余砖家 阅读(265) 评论(0) 推荐(0)
摘要:背景: 启动Flink的sql-client.sh,创建Kafka的source端表,然后查询Kafka的数据时报错。 报错信息: 2024-06-18 16:10:12 org.apache.flink.util.FlinkException: Global failure triggered b 阅读全文
posted @ 2024-06-18 16:35 业余砖家 阅读(809) 评论(0) 推荐(0)
摘要:问题描述 通过FlinkSQL创建Hudi表后,执行SQL向表中插入数据报错: [ERROR] Could not execute SQL statement. Reason:java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataI 阅读全文
posted @ 2024-02-28 14:30 业余砖家 阅读(611) 评论(0) 推荐(0)
摘要:一、安装规划 操作系统 服务器IP 主机名 硬件配置 CentOS7.6 192.168.80.131 hadoop01 内存:2GB,CPU:2核,硬盘:100GB CentOS7.6 192.168.80.132 hadoop02 内存:2GB,CPU:2核,硬盘:100GB CentOS7.6 阅读全文
posted @ 2024-02-07 10:16 业余砖家 阅读(2327) 评论(0) 推荐(0)
摘要:Flink CDC写入kafka几种常见的数据格式,其中包括upsert-kafka写入后正常的json格式,debezium-json格式以及changelog-json格式。 upsert-kafka 正常json数据格式 -- insert 操作:{"name":"魏夜游","remark": 阅读全文
posted @ 2024-01-03 16:13 业余砖家 阅读(769) 评论(0) 推荐(0)
摘要:问题描述 Caused by: org.postgresql.util.PSQLException: 错误: 无法访问文件 "decoderbufs": 没有那个文件或目录 解决办法 postgres-cdc的属性缺少如下配置: 'slot.name' = 'myslot','decoding.pl 阅读全文
posted @ 2024-01-03 10:43 业余砖家 阅读(375) 评论(0) 推荐(0)
摘要:问题描述 通过./bin/start-cluster.sh启动Flink程序,正常启动后无法通过浏览器访问web UI界面,http://192.168.80.133:8081。 问题原因 Flink1.12之前启动Flink程序后,可以正常打开WebUI界面,换成新的版本后Flink1.15、Fl 阅读全文
posted @ 2024-01-03 09:14 业余砖家 阅读(4058) 评论(0) 推荐(0)
摘要:Flink去重语句 您可以通过多种方式实现去重需求,例如FIRST_VALUE、LAST_VALUE和DISTINCT等。本文为您介绍如何使用TopN方法实现去重,以及使用过程中的注意事项。 去重的方案通常有两种: (1) 保留第一条。 (2) 保留最后一条。 说明 ORDER BY后的时间属性字段 阅读全文
posted @ 2022-08-11 09:28 业余砖家 阅读(1889) 评论(0) 推荐(0)