随笔分类 -  数据湖-iceberg

摘要:1.9 Flink1.13.5与Iceberg0.12.1整合 目前Flink支持使用DataStream API 和SQL API 方式实时读取和写入Iceberg表,建议大家使用SQL API 方式实时读取和写入Iceberg表。 Iceberg 支持的Flink版本为1.11.x版本以上,目前 阅读全文
posted @ 2022-11-14 18:28 a-tao必须奥利给 阅读(608) 评论(0) 推荐(0)
摘要:1.8.7 Spark与Iceberg整合写操作 1.8.7.1 INSERT INTO "insert into"是向Iceberg表中插入数据,有两种语法形式:"INSERT INTO tbl VALUES (1,"zs",18),(2,"ls",19)"、"INSERT INTO tbl SE 阅读全文
posted @ 2022-11-14 18:25 a-tao必须奥利给 阅读(2051) 评论(0) 推荐(0)
摘要:1.8.6 Spark与Iceberg整合查询操作 1.8.6.1 DataFrame API加载Iceberg中的数据 Spark操作Iceberg不仅可以使用SQL方式查询Iceberg中的数据,还可以使用DataFrame方式加载Iceberg表中的数据,可以通过spark.table(Ice 阅读全文
posted @ 2022-11-14 15:39 a-tao必须奥利给 阅读(1210) 评论(0) 推荐(0)
摘要:1.8.5.6 ALTER TABLE 分区操作 alter 分区操作包括增加分区和删除分区操作,这种分区操作在Spark3.x之后被支持,spark2.4版本不支持,并且使用时,必须在spark配置中加入spark.sql.extensions属性,其值为:org.apache.iceberg.s 阅读全文
posted @ 2022-11-11 16:41 a-tao必须奥利给 阅读(854) 评论(0) 推荐(0)
摘要:Spark3.1.2与Iceberg0.12.1整合 Spark可以操作Iceberg数据湖,这里使用的Iceberg的版本为0.12.1,此版本与Spark2.4版本之上兼容。由于在Spark2.4版本中在操作Iceberg时不支持DDL、增加分区及增加分区转换、Iceberg元数据查询、inse 阅读全文
posted @ 2022-11-11 15:33 a-tao必须奥利给 阅读(883) 评论(0) 推荐(0)
摘要:hive整合iceberg 1.6 Hive与Iceberg整合 Iceberg就是一种表格式,支持使用Hive对Iceberg进行读写操作,但是对Hive的版本有要求,如下: | 操作 | Hive 2.x | Hive 3.1.2 | | | | | | CREATE EXTERNAL TABL 阅读全文
posted @ 2022-11-09 14:43 a-tao必须奥利给 阅读(782) 评论(0) 推荐(0)
摘要:数据湖iceberg-day01 1.1 什么是数据湖 1.1.1 什么是数据湖 数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析,对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出 阅读全文
posted @ 2022-11-09 11:41 a-tao必须奥利给 阅读(1233) 评论(0) 推荐(0)