数据湖-iceberg - 随笔分类 - a-tao必须奥利给

Spark与Iceberg整合写操作-没有测试

摘要：1.9 Flink1.13.5与Iceberg0.12.1整合目前Flink支持使用DataStream API 和SQL API 方式实时读取和写入Iceberg表，建议大家使用SQL API 方式实时读取和写入Iceberg表。 Iceberg 支持的Flink版本为1.11.x版本以上，目前阅读全文

posted @ 2022-11-14 18:28 a-tao必须奥利给阅读(647) 评论(0) 推荐(0)

Spark与Iceberg整合写操作-INSERT INTO，MERGE INTO，INSERT OVERWRITE，DELETE FROM，UPDATE，sparkstreaming整合iceberg

摘要：1.8.7 Spark与Iceberg整合写操作 1.8.7.1 INSERT INTO "insert into"是向Iceberg表中插入数据，有两种语法形式："INSERT INTO tbl VALUES (1,"zs",18),(2,"ls",19)"、"INSERT INTO tbl SE 阅读全文

posted @ 2022-11-14 18:25 a-tao必须奥利给阅读(2144) 评论(0) 推荐(0)

Spark与Iceberg整合查询操作-查询快照，表历史，data files Manifests 查询快照，时间戳数据

摘要：1.8.6 Spark与Iceberg整合查询操作 1.8.6.1 DataFrame API加载Iceberg中的数据 Spark操作Iceberg不仅可以使用SQL方式查询Iceberg中的数据，还可以使用DataFrame方式加载Iceberg表中的数据，可以通过spark.table(Ice 阅读全文

posted @ 2022-11-14 15:39 a-tao必须奥利给阅读(1251) 评论(0) 推荐(0)

ALTER TABLE 分区操作-动态增加一级，多级分区，动态删除分区

摘要：1.8.5.6 ALTER TABLE 分区操作 alter 分区操作包括增加分区和删除分区操作，这种分区操作在Spark3.x之后被支持，spark2.4版本不支持，并且使用时，必须在spark配置中加入spark.sql.extensions属性，其值为：org.apache.iceberg.s 阅读全文

posted @ 2022-11-11 16:41 a-tao必须奥利给阅读(885) 评论(0) 推荐(0)

Spark3.1.2与Iceberg0.12.1整合-hadoop和hive的catalog，DDL，隐藏分区（按年，月，天，小时），create(replace) T as select ..., drop,列的增加删除和改名。

摘要：Spark3.1.2与Iceberg0.12.1整合 Spark可以操作Iceberg数据湖，这里使用的Iceberg的版本为0.12.1，此版本与Spark2.4版本之上兼容。由于在Spark2.4版本中在操作Iceberg时不支持DDL、增加分区及增加分区转换、Iceberg元数据查询、inse 阅读全文

posted @ 2022-11-11 15:33 a-tao必须奥利给阅读(913) 评论(0) 推荐(0)

数据湖iceberg-day02-Hive与Iceberg整合

posted @ 2022-11-09 14:43 a-tao必须奥利给阅读(815) 评论(0) 推荐(0)

数据湖iceberg-day01-概念，特点，存储格式以及各种表中的演化，数据类型

摘要：数据湖iceberg-day01 1.1 什么是数据湖 1.1.1 什么是数据湖数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析，对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出阅读全文

posted @ 2022-11-09 11:41 a-tao必须奥利给阅读(1304) 评论(0) 推荐(0)

atao-BigData

人生如逆旅，你我亦行人。

随笔分类 - 数据湖-iceberg

公告