奇葩兔子 - 博客园

2023年2月27日

摘要：阅读全文

posted @ 2023-02-27 14:53 奇葩兔子阅读(18) 评论(0) 推荐(0)

2023年2月20日

摘要： 1.from2.join on 或 lateral view explode(需炸裂的列) tbl as 炸裂后的列名3.where4.group by （开始使用select中的别名，从group 开始往后都可用）5.聚合函数如Sum() avg() count(1)等6.having7.sel 阅读全文

posted @ 2023-02-20 11:10 奇葩兔子阅读(436) 评论(0) 推荐(0)

2023年2月3日

Doris

摘要：阅读全文

posted @ 2023-02-03 16:45 奇葩兔子阅读(326) 评论(0) 推荐(0)

2023年1月18日

第四章：DataStream API的介绍和使用

摘要：阅读全文

posted @ 2023-01-18 17:03 奇葩兔子阅读(28) 评论(0) 推荐(0)

第五章：时间和窗口

摘要： 1.ProcessFunction系列函数 2.窗口算子的使用 3.处理迟到数据阅读全文

posted @ 2023-01-18 14:40 奇葩兔子阅读(35) 评论(0) 推荐(0)

第六章：状态和检查点

摘要：阅读全文

posted @ 2023-01-18 14:30 奇葩兔子阅读(19) 评论(0) 推荐(0)

第九章：Flink集群部署模式

摘要：阅读全文

posted @ 2023-01-18 14:25 奇葩兔子阅读(30) 评论(0) 推荐(0)

2021年12月9日

flink-allowedLateness与watermark的区别

摘要： 1.watermark Flink对于乱序数据怎么办呢？方案就是 watermark。 watermark，直译为水位线，就是元素可以迟到多久才去关闭窗口。例如一个窗口是[0-5),，watermark允许最多延迟3s（指的是watermark参数是3s），那么一个6s的事件，它的watermar 阅读全文

posted @ 2021-12-09 19:19 奇葩兔子阅读(681) 评论(0) 推荐(0)

2021年11月29日

iceberg数据读取流程

摘要：假设我们的表是存储在 Hive 的 MetaStore 里面的，表名为 iteblog，并且数据的组织结构如上如所示。 1.查询最新快照的数据 •通过数据库名和表名，从 Hive 的 MetaStore 里面拿到表的信息。从表的属性里面其实可以拿到 metadata_location 属性，通过这个阅读全文

posted @ 2021-11-29 17:53 奇葩兔子阅读(1556) 评论(0) 推荐(0)

2021年10月25日

iceberg数据写入流程

摘要：在上一篇文章中我们主要讲解了iceberg各个元数据文件中的数据组织形式，那么这些元数据是怎么生成的呢？如何通过spark写入iceberg？本文将带大家简单了解一下使用spark 2.4.7 batch写入iceberg的整体流程。 spark写入示例本文主要演示如何使用iceberg hado 阅读全文

posted @ 2021-10-25 16:40 奇葩兔子阅读(2562) 评论(0) 推荐(0)