Iceberg - 随笔分类(第2页) - Robots2

表治理-Iceberg元数据合并-metadata.json文件

摘要：一、背景描述元数据文件随时间增多，导致查询变慢。通过如下方式可以指定metadata个数，超过指定数量自动清理。 metadata文件对应Iceberg概念是Snapshots 二、解决方案 1、在建表时增加参数 ‘write.metadata.delete-after-commit.enable 阅读全文

posted @ 2024-01-02 10:19 Robots2 阅读(480) 评论(0) 推荐(0)

调研报告-基于 Iceberg 构建湖仓一体平台调研

摘要：一、背景我们使用 Iceberg 构建湖仓一体平台的初衷是希望解决业务方在使用 Hive 数仓时的一些痛点。主要包括以下几大方面：（1）现有的数据同步只支持全量同步，同步大表速度慢。（2）Hive 的时效性不好，即使使用 FIink 流式的引擎写入，延迟也会在小时级别。（3）Hive扫描数据阅读全文

posted @ 2024-01-02 10:16 Robots2 阅读(971) 评论(0) 推荐(0)

iceberg调研-查询Iceberg表流程

摘要：1、查询表结构 show create table data_lake_ods.dws_service_subclazz_lesson_user_learn_stat_rt_v2 CREATE TABLE spark_catalog.data_lake_ods.test1 ( `user_numbe 阅读全文

posted @ 2024-01-02 10:12 Robots2 阅读(362) 评论(0) 推荐(0)

性能测试-Oceanus 测试FLink mysql到Iceberg性能

摘要：一、任务依赖信息 1、mysql测试库信息地址：127.0.0.1、gomysql_bdg_test 库：bdg_test 表：order_info1 2、iceberg库 hive地址：thrift://127:7004 catalog-name：spark_catalog Format版本:v 阅读全文

posted @ 2024-01-02 10:05 Robots2 阅读(297) 评论(0) 推荐(0)

同步工具-调研对比

摘要：一、同步工具简介 1、腾讯数据集成产品：数据集成（DataInLong）源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong（应龙），支持一站式跨云跨网数据同步产品文档：https://cloud.tencent.com/document/product/1580/73382 2 阅读全文

posted @ 2024-01-02 09:57 Robots2 阅读(603) 评论(0) 推荐(0)

同步工具-SeaTunnel使用

摘要：一、介绍 SeaTunnel 是一个非常好用、超高性能的分布式数据集成平台，架构于 Apache Spark 和 Apache Flink 之上，实现了海量数据的实时同步与转换。每天可以稳定高效地同步数百亿数据，目前已接近百家公司在生产上使用依赖环境：Spark3.2.1、FLink 运行服务器：阅读全文

posted @ 2024-01-02 09:54 Robots2 阅读(1954) 评论(0) 推荐(0)

同步工具-Oceanus打通mysql到Iceberg

摘要：一、服务配置已配置好gt_oneline_2，其它集群还需按照下面方式特殊配置 1、需要腾讯Oceanus同学在后端修改高途flink集群配置core-site.xml文件，增加如下配置。只能绑定一个chdfs环境，这边绑定的测试环境，线上环境需要改qcloud.object.storage.zk 阅读全文

posted @ 2024-01-02 09:50 Robots2 阅读(74) 评论(0) 推荐(0)

使用-数据湖Iceberg和现有hive数仓打通并使用

摘要：一、集群配置 1、版本使用技术版本 iceberg 1.3.1 flink 1.16.1 spark 3.2.1 hive 2.3.7 dlc-presto 待定 2、集群配置调整（1）使用hive查询的话所有hiveserver2节点修改hive-site.xml文件，添加jar包，添加如下阅读全文

posted @ 2024-01-02 09:45 Robots2 阅读(783) 评论(0) 推荐(0)

使用必读-使用Iceberg数据湖需要注意的点

摘要：一、开发注意事项 1、Iceberg选择合适的表版本简述：Iceberg目前有两个表版本（V1和V2），根据数据选择合适的表版本。 V1表只支持增量数据插入，适合做纯增量写入场景，如埋点数据。 V2表才支持行级更新，适合做状态变化的更新，如订单表同步。使用方式：建表语句时指定版本'format- 阅读全文

posted @ 2024-01-02 09:35 Robots2 阅读(318) 评论(0) 推荐(0)

优化-iceberg调参优化

摘要：一、建表优化 1、iceberg表支持更新操作。文档：https://iceberg.apache.org/docs/latest/configuration/ 功能描述：因v1只支持insert，如果有更新场景，则需要建表时指定format为V2版本参数：'format-version'='2 阅读全文

posted @ 2024-01-02 09:34 Robots2 阅读(486) 评论(0) 推荐(0)

Kyuubi支持Iceberg配置

摘要：一、简述 Kyuubi调用Spark来查询iceberg表，修改Spark配置信息即可。二、服务配置 1、上传jar包到Kyuubi server节点可以选择emr spark组件后，按照配置组(kyuubi-spark321)筛选kyuubi节点。 hadoop用户上传jar包：tx-iceb 阅读全文

posted @ 2024-01-02 09:32 Robots2 阅读(191) 评论(0) 推荐(0)

presto集成iceberg

摘要：一、Presto服务下新建catelog cd /usr/local/service/presto/etc/catalog vim iceberg.properties connector.name=iceberg #iceberg.catalog.type=hive_metastore hive. 阅读全文

posted @ 2023-12-13 15:45 Robots2 阅读(120) 评论(0) 推荐(0)

Iceberg Spark存储过程-表治理工具

摘要：一、简介存储过程（Procedure）是数据库领域的概念，类似于编程语言中的方法或函数，是对实现特定操作的封装，原生的 Spark SQL 中是不支持存储过程的，Iceberg 0.11.0版本之后对其进行了扩展，并提供了部分存储过程的实现。Iceberg 中提供的所有存储过程都在system n 阅读全文

posted @ 2023-12-08 16:09 Robots2 阅读(726) 评论(0) 推荐(0)

spark-sql查询Iceberg时处理流程

摘要：1、查询表结构 show create table data_lake_ods.test CREATE TABLE spark_catalog.data_lake_ods.test ( `user_number` BIGINT NOT NULL, `subclazz_number` BIGINT N 阅读全文

posted @ 2023-12-05 12:03 Robots2 阅读(321) 评论(0) 推荐(0)

Iceberg的Copy on Write和Merge On Read介绍

摘要：一、默认的Copy on Write Copy no Write模式指的是在进行更新数据时，先将数据拷贝出来进行相应的更新，再替换掉原先的数据二、Merge On Read读取时合并在v2版本才支持，Merge on Read的Row-level delete使用了如下概念： delete fi 阅读全文

posted @ 2023-11-30 15:58 Robots2 阅读(930) 评论(0) 推荐(0)

Iceberg参数调整

摘要：1、读取参数介绍属性默认值描述 read.split.target-size 134217728 (128 MB) 组合数据输入分割时的目标大小 read.split.metadata-target-size 33554432 (32 MB) 组合元数据输入分割时的目标大小 read.spli 阅读全文

posted @ 2023-11-15 13:50 Robots2 阅读(1075) 评论(0) 推荐(0)

Robots2

随笔分类 - Iceberg

公告