05 2022 档案

Flink window
摘要:窗口计算 我们经常需要在一个时间窗口维度上对数据进行聚合,窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API,我们可以将数据流切分成一个个窗口,对窗口内的数据进行处理 按照有没有进行keyby分成了两种 不同的处理方式: 首先,我们要决定是否对一个DataStre 阅读全文

posted @ 2022-05-29 18:30 chaplinthink 阅读(151) 评论(0) 推荐(0)

Flink on Yarn和k8s
摘要:Yarn 架构 下图为作业提交到yarn的交互流程: 组件列表 ResourceManager (RM):ResourceManager (RM) 负责处理客户端请求、启动 / 监控 ApplicationMaster、监控 NodeManager、资源的分配与调度,包含 Scheduler 和 A 阅读全文

posted @ 2022-05-28 22:57 chaplinthink 阅读(1573) 评论(0) 推荐(0)

Flink如何处理update数据
摘要:问题 Flink实时统计GMV,如果订单金额下午变了该怎么处理 具体描述 实时统计每天的GMV,但是订单金额是会修改的。 订单存储在mysql,通过binlog解析工具实时同步到kafka.然后从kafka实时统计当日订单总额。 假设订单009 上午10点生成,金额为1000. 生成一条json数据 阅读全文

posted @ 2022-05-23 21:12 chaplinthink 阅读(769) 评论(0) 推荐(0)

Flink Catalog
摘要:Catalog 提供了元数据信息,例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。 阅读全文

posted @ 2022-05-18 21:32 chaplinthink 阅读(965) 评论(0) 推荐(0)

Flink Checkpoint & Savepoint
摘要:Flink checkpoint Checkpoint是Flink实现容错机制最核心的功能,能够根据配置周期性地基于Stream中各个Operator的状态来生成Snapshot,从而将这些状态数据定期持久化存储下来,从而将这些状态数据定期持久化存储下来,当Flink程序一旦意外崩溃时,重新运行程序 阅读全文

posted @ 2022-05-18 12:59 chaplinthink 阅读(560) 评论(0) 推荐(0)

Flink 状态编程
摘要:概念 在Flink架构体系中,有状态计算可以说是Flink非常重要的特性之一 Flink优势: 支持高吞吐、低延迟、高性能 支持事件时间Event_time概念 支持有状态计算 有状态计算是指: 在程序计算过程中,在Flink程序内部存储计算产生的中间结果,并提供给后续Function或算子计算结果 阅读全文

posted @ 2022-05-16 13:43 chaplinthink 阅读(306) 评论(0) 推荐(0)

Flink Time
摘要:基础概念 支持三种时间概念: Processing Time 时间递增 Ingestion Time : 摄入时间,数据进入Flink框架的时间,在Source Operator中设置,每个事件拿到当前时间作为时间戳,后续的时间窗口基于该时间 Event Time 支持一定程度的乱序 上一个 che 阅读全文

posted @ 2022-05-14 23:17 chaplinthink 阅读(53) 评论(0) 推荐(0)

Flink DataStream API
摘要:DataStream API主要可为分为三个部分,DataSource模块、Transformation模块以及DataSink模块。 DataSource模块 内置DataSource:文件数据源 读取类型(WatchType): 其中WatchType共分为两种模式: PROCESS_CONTI 阅读全文

posted @ 2022-05-13 12:34 chaplinthink 阅读(127) 评论(0) 推荐(0)

ClickHouse-查询优化
摘要:单表查询【使用的频率高】 1.prewhere代表where Prewhere 和 where 语句的作用相同,用来过滤数据。不同之处在于 prewhere 只支持*MergeTree 族系列引擎的表,首先会读取指定的列数据,来判断数据过滤,等待数据过滤之后再读取 select 声明的列字段来补全其 阅读全文

posted @ 2022-05-11 09:45 chaplinthink 阅读(854) 评论(0) 推荐(0)

Clickhouse副本及分片
摘要:副本 副本的目的主要是保障数据的高可用性,即使一台 ClickHouse 节点宕机,那么也可以从其他服务器获得相同的数据 配置副本 1. zookeeper集群准备 2. Clickhouse准备两个节点 Node1, Node2 在 Node1 的/etc/clickhouse-server/co 阅读全文

posted @ 2022-05-10 13:17 chaplinthink 阅读(493) 评论(0) 推荐(0)

Clickhouse SQL语法
摘要:Insert 基本与标准 SQL(MySQL)基本一致 (1)标准 insert into [table_name] values(…),(….) (2)从表到表的插入 insert into [table_name] select a,b,c from [table_name_2] update和 阅读全文

posted @ 2022-05-09 20:07 chaplinthink 阅读(464) 评论(0) 推荐(0)

Clickhouse入门及实践
摘要:ClickHouse安装 采用doker安装测试: 拉取服务端 docker pull yandex/clickhouse-server 拉取客户端 docker pull yandex/clickhouse-client 启动ck-server: docker run -d --name ck-s 阅读全文

posted @ 2022-05-08 12:47 chaplinthink 阅读(399) 评论(0) 推荐(0)

Flink CDC 与Hudi整合
摘要:本篇主要讲解Flink CDC与hudi整合实践, 探索新的湖仓一体架构 阅读全文

posted @ 2022-05-05 22:00 chaplinthink 阅读(1348) 评论(0) 推荐(0)

导航