Iceberg - 随笔分类 - Robots2

Amoro提供grafana的metrics介绍

posted @ 2025-02-06 18:01 Robots2 阅读(53) 评论(0) 推荐(0)

Iceberg治理服务Amoro---配置Prometheus + Grafana看板

摘要：一、基础资料 1、mac安装Prometheus + Grafana https://www.cnblogs.com/robots2/p/18689540 2、配置文档 https://amoro.apache.org/docs/0.7.1/deployment/#configure-metric- 阅读全文

posted @ 2025-01-24 16:53 Robots2 阅读(101) 评论(0) 推荐(0)

Flink同步mysql写入Iceberg异常，一秒写入一次

摘要：1、现象在Iceberg数据湖治理过程中发现，同步任务运行7天没有写入数据，运行7天后突然大批量产生Commit，一秒产生一个Commit。 2、问题 Flink写入checkpoint时会在checkpoint中先记录一个递增id， commit后会在Iceberg表中记录一个递增commit 阅读全文

posted @ 2025-01-07 15:17 Robots2 阅读(45) 评论(0) 推荐(0)

FLink同步mysql到Iceberg丢数问题排查解决

摘要：一、问题背景数据对比程序发现通过Flink cdc同步mysql写入Iceberg表运行一段时间后存在丢数问题，排查到丢数是由于hivemetastore钩子函数缺陷引起，由腾讯云EMR修复钩子函数作用：在查询表时，更新hivemetastore中表的最近访问时间产生丢数的原因：因钩子函数需要阅读全文

posted @ 2024-11-22 18:41 Robots2 阅读(181) 评论(0) 推荐(0)

Flink-cdc同步mysql到iceberg丢失数据排查

摘要：一、获取任务信息任务id：i01f51582-d8be-4262-aefa-000000 任务名称：ods_test1234 丢失的数据时间：2024-09-16 09:28:47 二、数据同步查看日志 1、筛选日志筛选2024-09-16 09:28:47 的前后5分钟后数据 2、查找快照id 阅读全文

posted @ 2024-09-19 10:20 Robots2 阅读(202) 评论(0) 推荐(0)

Apache Amoro数据湖管理和治理工具部署

摘要：一、Amoro介绍 2024 年 3 月 11 日，Amoro 项目顺利通过投票，正式进入 Apache 软件基金会（ASF，Apache Software Foundation）的孵化器，成为 ASF 的一个孵化项目。 Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。2020 年开始，网阅读全文

posted @ 2024-08-02 17:55 Robots2 阅读(901) 评论(0) 推荐(0)

Iceberg根据快照查看文件，根据文件查看哪个快照写入

摘要：一、背景用户查询iceberg表时报文件为空，因为存在写入和治理程序同时操作iceberg表，需要查看空文件是哪个快照产生的，方便确定是flink写入缺陷还是spark治理缺陷二、通过Sql查询文件所属哪个快照（推荐查询方式）查询表的文件信息，根据data_file列信息筛选是哪个快照写入，s 阅读全文

posted @ 2024-08-02 16:48 Robots2 阅读(121) 评论(0) 推荐(0)

Iceberg v2表写入和微批治理冲突，如何保证治理准确性

摘要：一、背景微批治理任务分多个job治理一张表，还有一个Flink程序每5分钟一次写入iceberg表，如治理任务划分了20个job治理一张表，在治理期间存在新的数据更新，如何保证治理准确性二、治理时写入，快照对应信息 1、治理和写入时快照和文件变化 snapshot_id sequence num 阅读全文

posted @ 2024-07-17 09:23 Robots2 阅读(153) 评论(0) 推荐(0)

Iceberg metrics导致的问题

摘要：一、问题描述在iceberg rewrite时报错：org.apache.iceberg.exceptions.ValidationException: Cannot commit, found new delete for replaced data file 看信息像是对于要删除的DataFi 阅读全文

posted @ 2024-07-12 18:18 Robots2 阅读(133) 评论(0) 推荐(0)

Flink同步kafka到iceberg数据延迟，两个checkpoint后才可查询

摘要：一、问题描述用户配置了高级参数很多，观察kafka增量数据不多，flink负载不高情况下两个checkpoint后才可查询到数据。排查时hdfs有数据文件产生，但是mainfast文件中最新快照id没变化。二、原因经腾讯排查，用户参数指定高级参数execution.checkpointing 阅读全文

posted @ 2024-05-17 14:45 Robots2 阅读(189) 评论(0) 推荐(0)

Flink同步kafka到iceberg(cos存储）

摘要：一、flink到logger 1、source create table source_table ( id bigint comment '唯一编号' ,order_number bigint comment '订单编号' ,update_timestamp timestamp_ltz metad 阅读全文

posted @ 2024-05-16 17:44 Robots2 阅读(190) 评论(0) 推荐(0)

在flink消费一段时间kafka后，kafka-group的offset被重置了是怎么回事？

摘要：一、背景腾讯Flink使用 KafkaSource API创建source端，源码中默认开启了checkpoint的时候提交offset 到kafka-broker。读取kafka数据写入到iceberg 目前发现一个问题，就是消费数据的时候，消费一段时间后，kafka-group的 offset 阅读全文

posted @ 2024-04-25 15:05 Robots2 阅读(618) 评论(0) 推荐(0)

使用iceberg-使用Iceberg数据湖需要注意的点

摘要：一、资料准备 1、mysql地址选择因为阿里云只读节点binlog保留时间短，需要用读写集群地址。可以登录阿里云控制台查看地址是只读还是读写，不清楚的话可以找dba要读写地址。二、Iceberg概念 1、Iceberg选择合适的表版本简述：Iceberg目前有两个表版本（V1和V2），根据数据阅读全文

posted @ 2024-04-22 12:15 Robots2 阅读(1563) 评论(0) 推荐(0)

Iceberg问题记录-数据湖问题记录跟进

摘要：一、问题追踪问题详细描述提出问题时间是否完成计划完成时间备注了解Iceberg数据存储方式了解元数据存储信息、数据组织方式、查询时处理流程等 20231013 是 20231019 ！！！20231124前均为大致的时间调研报告：调研报告-基于 Iceberg 构建湖仓一体平台调研阅读全文

posted @ 2024-04-22 10:55 Robots2 阅读(232) 评论(0) 推荐(0)

Iceberg常用命令

摘要：一、登录spark客户端 spark-sql --master yarn \ --deploy-mode client \ --queue default \ --name wang \ --driver-memory 12G \ --num-executors 10 \ --executor-co 阅读全文

posted @ 2024-04-22 10:48 Robots2 阅读(381) 评论(0) 推荐(0)

同步工具-腾讯EMR表治理工具安装使用

摘要：一、安装 1、root用户上传文件 cd wangrz -bey luoshu-1.0-bin.tar.gz 2、解压文件到服务目录重新安装洛书需执行：rm -rf /usr/local/service/luoshu mkdir /usr/local/service/luoshu tar -zxf 阅读全文

posted @ 2024-04-22 10:45 Robots2 阅读(58) 评论(0) 推荐(0)

使用iceberg-flink读取iceberg v2表

摘要：一、背景 mysql数据入湖后，有同事需要实时抽取iceberg v2表，想通过iceberg做分钟级实时数仓。目前flink社区暂不支持读取v2表。腾讯内部支持目前只能用Oceanus内置connector，支持flink1.13版本。需要读写时都用iceberg-1.1去处理，因为写入是定制i 阅读全文

posted @ 2024-04-19 16:47 Robots2 阅读(536) 评论(0) 推荐(0)

Iceberg调研报告-腾讯数据集成工具报告

摘要：标题测试报告背景目标大航海databus任务在合并阶段费资源，且大表执行时间较长，期望缩短同步时间可以10分钟抽10亿条数据。数据同步需要先建表，再建任务，配置不方便。结论在满足配置时可以达到期望速度，配置如下所需环境信息 mysql CPU:16核内存:32G IOPS:32000 阅读全文

posted @ 2024-01-02 10:34 Robots2 阅读(61) 评论(0) 推荐(0)

表治理-Iceberg过期快照清理

摘要：总结指标清理前（已优化小文件）清理后查询速度 13秒 15秒（波动）表总大小 26.4G 17.2G metadata目录文件数 75 42 data目录文件数 1501 602 ！！！需要先做小文件合并，然后再做过期快照比较好。小文件合并：Iceberg小文件合并测试一、清理任务资源阅读全文

posted @ 2024-01-02 10:29 Robots2 阅读(553) 评论(0) 推荐(0)

表治理-Iceberg小文件合并测试

摘要：总结指标合并前合并后（因测试中多次合并，数据会偏多）查询速度 246秒 13秒表总大小 9.2G 26.4G 单个文件大小 1-25MB 60MB左右 metadata目录文件数 37 75 data目录文件数 900 1501 小文件合并后历史版本数据不会自动清理，需要做快照清理快照清阅读全文

posted @ 2024-01-02 10:27 Robots2 阅读(1222) 评论(0) 推荐(0)

Robots2

随笔分类 - Iceberg

公告