2022 年 5月随笔档案 - chaplinthink

Flink window

摘要：窗口计算我们经常需要在一个时间窗口维度上对数据进行聚合，窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API，我们可以将数据流切分成一个个窗口，对窗口内的数据进行处理按照有没有进行keyby分成了两种不同的处理方式: 首先，我们要决定是否对一个DataStre 阅读全文

posted @ 2022-05-29 18:30 chaplinthink 阅读(151) 评论(0) 推荐(0)

Flink on Yarn和k8s

摘要：Yarn 架构下图为作业提交到yarn的交互流程：组件列表 ResourceManager (RM)：ResourceManager (RM) 负责处理客户端请求、启动 / 监控 ApplicationMaster、监控 NodeManager、资源的分配与调度，包含 Scheduler 和 A 阅读全文

posted @ 2022-05-28 22:57 chaplinthink 阅读(1573) 评论(0) 推荐(0)

Flink如何处理update数据

摘要：问题 Flink实时统计GMV,如果订单金额下午变了该怎么处理具体描述实时统计每天的GMV,但是订单金额是会修改的。订单存储在mysql,通过binlog解析工具实时同步到kafka.然后从kafka实时统计当日订单总额。假设订单009 上午10点生成，金额为1000. 生成一条json数据阅读全文

posted @ 2022-05-23 21:12 chaplinthink 阅读(769) 评论(0) 推荐(0)

Flink Catalog

摘要：Catalog 提供了元数据信息，例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。阅读全文

posted @ 2022-05-18 21:32 chaplinthink 阅读(965) 评论(0) 推荐(0)

Flink Checkpoint & Savepoint

摘要：Flink checkpoint Checkpoint是Flink实现容错机制最核心的功能，能够根据配置周期性地基于Stream中各个Operator的状态来生成Snapshot，从而将这些状态数据定期持久化存储下来，从而将这些状态数据定期持久化存储下来，当Flink程序一旦意外崩溃时，重新运行程序阅读全文

posted @ 2022-05-18 12:59 chaplinthink 阅读(560) 评论(0) 推荐(0)

Flink 状态编程

摘要：概念在Flink架构体系中，有状态计算可以说是Flink非常重要的特性之一 Flink优势：支持高吞吐、低延迟、高性能支持事件时间Event_time概念支持有状态计算有状态计算是指: 在程序计算过程中，在Flink程序内部存储计算产生的中间结果，并提供给后续Function或算子计算结果阅读全文

posted @ 2022-05-16 13:43 chaplinthink 阅读(306) 评论(0) 推荐(0)

Flink Time

摘要：基础概念支持三种时间概念： Processing Time 时间递增 Ingestion Time : 摄入时间，数据进入Flink框架的时间，在Source Operator中设置，每个事件拿到当前时间作为时间戳，后续的时间窗口基于该时间 Event Time 支持一定程度的乱序上一个 che 阅读全文

posted @ 2022-05-14 23:17 chaplinthink 阅读(53) 评论(0) 推荐(0)

Flink DataStream API

摘要：DataStream API主要可为分为三个部分，DataSource模块、Transformation模块以及DataSink模块。 DataSource模块内置DataSource：文件数据源读取类型（WatchType）: 其中WatchType共分为两种模式: PROCESS_CONTI 阅读全文

posted @ 2022-05-13 12:34 chaplinthink 阅读(127) 评论(0) 推荐(0)

ClickHouse-查询优化

摘要：单表查询【使用的频率高】 1.prewhere代表where Prewhere 和 where 语句的作用相同，用来过滤数据。不同之处在于 prewhere 只支持*MergeTree 族系列引擎的表，首先会读取指定的列数据，来判断数据过滤，等待数据过滤之后再读取 select 声明的列字段来补全其阅读全文

posted @ 2022-05-11 09:45 chaplinthink 阅读(854) 评论(0) 推荐(0)

Clickhouse副本及分片

摘要：副本副本的目的主要是保障数据的高可用性，即使一台 ClickHouse 节点宕机，那么也可以从其他服务器获得相同的数据配置副本 1. zookeeper集群准备 2. Clickhouse准备两个节点 Node1, Node2 在 Node1 的/etc/clickhouse-server/co 阅读全文

posted @ 2022-05-10 13:17 chaplinthink 阅读(493) 评论(0) 推荐(0)

Clickhouse SQL语法

摘要：Insert 基本与标准 SQL（MySQL）基本一致（1）标准 insert into [table_name] values(…),(….) （2）从表到表的插入 insert into [table_name] select a,b,c from [table_name_2] update和阅读全文

posted @ 2022-05-09 20:07 chaplinthink 阅读(464) 评论(0) 推荐(0)

Clickhouse入门及实践

摘要：ClickHouse安装采用doker安装测试：拉取服务端 docker pull yandex/clickhouse-server 拉取客户端 docker pull yandex/clickhouse-client 启动ck-server: docker run -d --name ck-s 阅读全文

posted @ 2022-05-08 12:47 chaplinthink 阅读(399) 评论(0) 推荐(0)

Flink CDC 与Hudi整合

摘要：本篇主要讲解Flink CDC与hudi整合实践, 探索新的湖仓一体架构阅读全文

posted @ 2022-05-05 22:00 chaplinthink 阅读(1348) 评论(0) 推荐(0)

chaplinthink

05 2022 档案