摘要: 离线->实时的区别: 典型传统实时分层方案1: 链路复杂,资源消耗极大,且中间层难以追溯,除非新增持久化 典型传统实时分层方案2: 形成准实时方案: 进化为物化视图: holo实现的实时数仓方案: 主要得益于holo与flink的集成: 核心的binlog能力: 存储方面也支持行列共存: 最佳实践1 阅读全文
posted @ 2025-11-21 14:10 ---江北 阅读(2) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2025-11-21 13:53 ---江北 阅读(0) 评论(0) 推荐(0)
摘要: 引入依赖: <!-- Logback 日志依赖 --> <dependency> <groupId>ch.qos.logback</groupId> <artifactId>logback-classic</artifactId> <version>1.2.12</version> </depend 阅读全文
posted @ 2025-11-05 15:30 ---江北 阅读(7) 评论(0) 推荐(0)
摘要: 传统方式(使用CTE): sql WITH ranked_data AS ( SELECT user_id, ip, country_code, os, RANK() OVER (PARTITION BY user_id ORDER BY log_datetime DESC) AS previous 阅读全文
posted @ 2025-10-20 16:53 ---江北 阅读(6) 评论(0) 推荐(0)
摘要: 算子分类: 注意,使用lambda表达式的时候,需要注意类型推断的问题,首推内部类或者单独实现接口的类。 基础转换: map 1对1,flatmap 1对多,filter 过滤。 keyby:逻辑上将流划分为不相交的分区,具有相同 key 的记录会被分配到同一个分区。 KeyedStream<MyE 阅读全文
posted @ 2025-10-08 14:25 ---江北 阅读(8) 评论(0) 推荐(0)
摘要: 运行组件: 最核心的是管理者jobManager和实际干活的taskManager。 jm接收作业图dag,包括做中央协调(协调checkpoint等), tm使用插槽slots运行数据,不同tm之间也可以交换数据等。 整体运行流程: 并行度的概念: slots概念 前后发生的算子任务,允许共享sl 阅读全文
posted @ 2025-09-28 14:25 ---江北 阅读(7) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/m0_37989980/article/details/126091233 阅读全文
posted @ 2025-09-25 16:11 ---江北 阅读(5) 评论(0) 推荐(0)
摘要: 代码: package com.yourcompany.flink; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import java.util.Properties; /** * 最简版 阅读全文
posted @ 2025-09-24 17:22 ---江北 阅读(7) 评论(0) 推荐(0)
摘要: 本站整理下载: 链接:https://pan.baidu.com/s/1P1bK-zdSuknnBuoAS6ZeXA 提取码:hfy9 阅读全文
posted @ 2025-09-24 15:51 ---江北 阅读(5) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2025-09-12 16:40 ---江北 阅读(0) 评论(0) 推荐(0)
TOP