随笔分类 -  Iceberg

摘要:一、指标内容 +| Metric Name | Type | Tags | Description | +| | | | | +| table_optimizing_status_idle_duration_mills | Gauge | catalog, database, table | Dur 阅读全文
posted @ 2025-02-06 18:01 Robots2 阅读(53) 评论(0) 推荐(0)
摘要:一、基础资料 1、mac安装Prometheus + Grafana https://www.cnblogs.com/robots2/p/18689540 2、配置文档 https://amoro.apache.org/docs/0.7.1/deployment/#configure-metric- 阅读全文
posted @ 2025-01-24 16:53 Robots2 阅读(101) 评论(0) 推荐(0)
摘要:1、现象 在Iceberg数据湖治理过程中发现,同步任务运行7天没有写入数据,运行7天后突然大批量产生Commit,一秒产生一个Commit。 2、问题 Flink写入checkpoint时会在checkpoint中先记录一个递增id, commit后会在Iceberg表中记录一个递增commit 阅读全文
posted @ 2025-01-07 15:17 Robots2 阅读(45) 评论(0) 推荐(0)
摘要:一、问题背景 数据对比程序发现通过Flink cdc同步mysql写入Iceberg表运行一段时间后存在丢数问题,排查到丢数是由于hivemetastore钩子函数缺陷引起,由腾讯云EMR修复 钩子函数作用:在查询表时,更新hivemetastore中表的最近访问时间 产生丢数的原因:因钩子函数需要 阅读全文
posted @ 2024-11-22 18:41 Robots2 阅读(181) 评论(0) 推荐(0)
摘要:一、获取任务信息 任务id:i01f51582-d8be-4262-aefa-000000 任务名称:ods_test1234 丢失的数据时间:2024-09-16 09:28:47 二、数据同步查看日志 1、筛选日志 筛选2024-09-16 09:28:47 的前后5分钟后数据 2、查找快照id 阅读全文
posted @ 2024-09-19 10:20 Robots2 阅读(202) 评论(0) 推荐(0)
摘要:一、Amoro介绍 2024 年 3 月 11 日,Amoro 项目顺利通过投票,正式进入 Apache 软件基金会(ASF,Apache Software Foundation)的孵化器,成为 ASF 的一个孵化项目。 Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。2020 年开始, 网 阅读全文
posted @ 2024-08-02 17:55 Robots2 阅读(901) 评论(0) 推荐(0)
摘要:一、背景 用户查询iceberg表时报文件为空,因为存在写入和治理程序同时操作iceberg表,需要查看空文件是哪个快照产生的,方便确定是flink写入缺陷还是spark治理缺陷 二、通过Sql查询文件所属哪个快照(推荐查询方式) 查询表的文件信息,根据data_file列信息筛选是哪个快照写入,s 阅读全文
posted @ 2024-08-02 16:48 Robots2 阅读(121) 评论(0) 推荐(0)
摘要:一、背景 微批治理任务分多个job治理一张表,还有一个Flink程序每5分钟一次写入iceberg表,如治理任务划分了20个job治理一张表,在治理期间存在新的数据更新,如何保证治理准确性 二、治理时写入,快照对应信息 1、治理和写入时快照和文件变化 snapshot_id sequence num 阅读全文
posted @ 2024-07-17 09:23 Robots2 阅读(153) 评论(0) 推荐(0)
摘要:一、问题描述 在iceberg rewrite时报错:org.apache.iceberg.exceptions.ValidationException: Cannot commit, found new delete for replaced data file 看信息像是对于要删除的DataFi 阅读全文
posted @ 2024-07-12 18:18 Robots2 阅读(133) 评论(0) 推荐(0)
摘要:一、问题描述 用户配置了高级参数很多,观察kafka增量数据不多,flink负载不高情况下两个checkpoint后才可查询到数据。 排查时hdfs有数据文件产生,但是mainfast文件中最新快照id没变化。 二、原因 经腾讯排查,用户参数指定高级参数execution.checkpointing 阅读全文
posted @ 2024-05-17 14:45 Robots2 阅读(189) 评论(0) 推荐(0)
摘要:一、flink到logger 1、source create table source_table ( id bigint comment '唯一编号' ,order_number bigint comment '订单编号' ,update_timestamp timestamp_ltz metad 阅读全文
posted @ 2024-05-16 17:44 Robots2 阅读(190) 评论(0) 推荐(0)
摘要:一、背景 腾讯Flink使用 KafkaSource API创建source端,源码中默认开启了checkpoint的时候提交offset 到kafka-broker。读取kafka数据写入到iceberg 目前发现一个问题,就是消费数据的时候,消费一段时间后,kafka-group的 offset 阅读全文
posted @ 2024-04-25 15:05 Robots2 阅读(618) 评论(0) 推荐(0)
摘要:一、资料准备 1、mysql地址选择 因为阿里云只读节点binlog保留时间短,需要用读写集群地址。可以登录阿里云控制台查看地址是只读还是读写,不清楚的话可以找dba要读写地址。 二、Iceberg概念 1、Iceberg选择合适的表版本 简述:Iceberg目前有两个表版本(V1和V2),根据数据 阅读全文
posted @ 2024-04-22 12:15 Robots2 阅读(1563) 评论(0) 推荐(0)
摘要:一、问题追踪 问题 详细描述 提出问题时间 是否完成 计划完成时间 备注 了解Iceberg数据存储方式 了解元数据存储信息、数据组织方式、查询时处理流程等 20231013 是 20231019 !!!20231124前均为大致的时间 调研报告:调研报告-基于 Iceberg 构建湖仓一体平台调研 阅读全文
posted @ 2024-04-22 10:55 Robots2 阅读(232) 评论(0) 推荐(0)
摘要:一、登录spark客户端 spark-sql --master yarn \ --deploy-mode client \ --queue default \ --name wang \ --driver-memory 12G \ --num-executors 10 \ --executor-co 阅读全文
posted @ 2024-04-22 10:48 Robots2 阅读(381) 评论(0) 推荐(0)
摘要:一、安装 1、root用户上传文件 cd wangrz -bey luoshu-1.0-bin.tar.gz 2、解压文件到服务目录 重新安装洛书需执行:rm -rf /usr/local/service/luoshu mkdir /usr/local/service/luoshu tar -zxf 阅读全文
posted @ 2024-04-22 10:45 Robots2 阅读(58) 评论(0) 推荐(0)
摘要:一、背景 mysql数据入湖后,有同事需要实时抽取iceberg v2表,想通过iceberg做分钟级实时数仓。目前flink社区暂不支持读取v2表。腾讯内部支持 目前只能用Oceanus内置connector,支持flink1.13版本。需要读写时都用iceberg-1.1去处理,因为写入是定制i 阅读全文
posted @ 2024-04-19 16:47 Robots2 阅读(536) 评论(0) 推荐(0)
摘要:标题 测试报告 背景目标 大航海databus任务在合并阶段费资源,且大表执行时间较长,期望缩短同步时间可以10分钟抽10亿条数据。数据同步需要先建表,再建任务,配置不方便。 结论 在满足配置时可以达到期望速度,配置如下 所需环境信息 mysql CPU:16核 内存:32G IOPS:32000 阅读全文
posted @ 2024-01-02 10:34 Robots2 阅读(61) 评论(0) 推荐(0)
摘要:总结 指标 清理前(已优化小文件) 清理后 查询速度 13秒 15秒(波动) 表总大小 26.4G 17.2G metadata目录文件数 75 42 data目录文件数 1501 602 !!!需要先做小文件合并,然后再做过期快照比较好。 小文件合并:Iceberg小文件合并测试 一、清理任务资源 阅读全文
posted @ 2024-01-02 10:29 Robots2 阅读(553) 评论(0) 推荐(0)
摘要:总结 指标 合并前 合并后(因测试中多次合并,数据会偏多) 查询速度 246秒 13秒 表总大小 9.2G 26.4G 单个文件大小 1-25MB 60MB左右 metadata目录文件数 37 75 data目录文件数 900 1501 小文件合并后历史版本数据不会自动清理,需要做快照清理 快照清 阅读全文
posted @ 2024-01-02 10:27 Robots2 阅读(1222) 评论(0) 推荐(0)