会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Robots2
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
3
4
5
6
7
8
9
10
11
···
34
下一页
2024年11月22日
FLink同步mysql到Iceberg丢数问题排查解决
摘要: 一、问题背景 数据对比程序发现通过Flink cdc同步mysql写入Iceberg表运行一段时间后存在丢数问题,排查到丢数是由于hivemetastore钩子函数缺陷引起,由腾讯云EMR修复 钩子函数作用:在查询表时,更新hivemetastore中表的最近访问时间 产生丢数的原因:因钩子函数需要
阅读全文
posted @ 2024-11-22 18:41 Robots2
阅读(182)
评论(0)
推荐(0)
2024年9月19日
Flink-cdc同步mysql到iceberg丢失数据排查
摘要: 一、获取任务信息 任务id:i01f51582-d8be-4262-aefa-000000 任务名称:ods_test1234 丢失的数据时间:2024-09-16 09:28:47 二、数据同步查看日志 1、筛选日志 筛选2024-09-16 09:28:47 的前后5分钟后数据 2、查找快照id
阅读全文
posted @ 2024-09-19 10:20 Robots2
阅读(202)
评论(0)
推荐(0)
2024年8月2日
Apache Amoro数据湖管理和治理工具部署
摘要: 一、Amoro介绍 2024 年 3 月 11 日,Amoro 项目顺利通过投票,正式进入 Apache 软件基金会(ASF,Apache Software Foundation)的孵化器,成为 ASF 的一个孵化项目。 Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。2020 年开始, 网
阅读全文
posted @ 2024-08-02 17:55 Robots2
阅读(912)
评论(0)
推荐(0)
Iceberg根据快照查看文件,根据文件查看哪个快照写入
摘要: 一、背景 用户查询iceberg表时报文件为空,因为存在写入和治理程序同时操作iceberg表,需要查看空文件是哪个快照产生的,方便确定是flink写入缺陷还是spark治理缺陷 二、通过Sql查询文件所属哪个快照(推荐查询方式) 查询表的文件信息,根据data_file列信息筛选是哪个快照写入,s
阅读全文
posted @ 2024-08-02 16:48 Robots2
阅读(121)
评论(0)
推荐(0)
2024年7月17日
Iceberg v2表写入和微批治理冲突,如何保证治理准确性
摘要: 一、背景 微批治理任务分多个job治理一张表,还有一个Flink程序每5分钟一次写入iceberg表,如治理任务划分了20个job治理一张表,在治理期间存在新的数据更新,如何保证治理准确性 二、治理时写入,快照对应信息 1、治理和写入时快照和文件变化 snapshot_id sequence num
阅读全文
posted @ 2024-07-17 09:23 Robots2
阅读(153)
评论(0)
推荐(0)
2024年7月12日
Iceberg metrics导致的问题
摘要: 一、问题描述 在iceberg rewrite时报错:org.apache.iceberg.exceptions.ValidationException: Cannot commit, found new delete for replaced data file 看信息像是对于要删除的DataFi
阅读全文
posted @ 2024-07-12 18:18 Robots2
阅读(134)
评论(0)
推荐(0)
2024年7月6日
ssh免密登录和代理连接线上服务器
摘要: 一、本地ssh配置 1、本地没有.ssh目录,第一次初始化ssh,一直回车键默认值 ssh-keygen -t rsa -P '' 2、设置目录权限 chmod 700 -R .ssh 设置目录权限 3、公钥追加到本机 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authoriz
阅读全文
posted @ 2024-07-06 18:46 Robots2
阅读(112)
评论(0)
推荐(0)
2024年6月27日
Linux网络优化踩坑net.ipv4.tcp_tw_recycle
摘要: 一、背景 来源于埋点上报服务,埋点上报服务是用户打开APP后点击、浏览、曝光等数据都会上报到埋点服务,收集数据后用来公司运营。 本次踩坑来源于监控到上课高峰期net.sockets.tcp.timewait达到系统设置的最大值5000,为了降低高峰期timewait数量,参考网上介绍可以调整三个参数
阅读全文
posted @ 2024-06-27 11:31 Robots2
阅读(287)
评论(0)
推荐(0)
2024年5月17日
Flink同步kafka到iceberg数据延迟,两个checkpoint后才可查询
摘要: 一、问题描述 用户配置了高级参数很多,观察kafka增量数据不多,flink负载不高情况下两个checkpoint后才可查询到数据。 排查时hdfs有数据文件产生,但是mainfast文件中最新快照id没变化。 二、原因 经腾讯排查,用户参数指定高级参数execution.checkpointing
阅读全文
posted @ 2024-05-17 14:45 Robots2
阅读(189)
评论(0)
推荐(0)
2024年5月16日
Flink同步kafka到iceberg(cos存储)
摘要: 一、flink到logger 1、source create table source_table ( id bigint comment '唯一编号' ,order_number bigint comment '订单编号' ,update_timestamp timestamp_ltz metad
阅读全文
posted @ 2024-05-16 17:44 Robots2
阅读(191)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
34
下一页
公告