摘要:        
标题 测试报告 背景目标 大航海databus任务在合并阶段费资源,且大表执行时间较长,期望缩短同步时间可以10分钟抽10亿条数据。数据同步需要先建表,再建任务,配置不方便。 结论 在满足配置时可以达到期望速度,配置如下 所需环境信息 mysql CPU:16核 内存:32G IOPS:32000     阅读全文
posted @ 2024-01-02 10:34
Robots2
阅读(61)
评论(0)
推荐(0)
        
            
        
        
摘要:        
总结 指标 清理前(已优化小文件) 清理后 查询速度 13秒 15秒(波动) 表总大小 26.4G 17.2G metadata目录文件数 75 42 data目录文件数 1501 602 !!!需要先做小文件合并,然后再做过期快照比较好。 小文件合并:Iceberg小文件合并测试 一、清理任务资源    阅读全文
posted @ 2024-01-02 10:29
Robots2
阅读(554)
评论(0)
推荐(0)
        
            
        
        
摘要:        
总结 指标 合并前 合并后(因测试中多次合并,数据会偏多) 查询速度 246秒 13秒 表总大小 9.2G 26.4G 单个文件大小 1-25MB 60MB左右 metadata目录文件数 37 75 data目录文件数 900 1501 小文件合并后历史版本数据不会自动清理,需要做快照清理 快照清    阅读全文
posted @ 2024-01-02 10:27
Robots2
阅读(1224)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、背景描述 元数据文件随时间增多,导致查询变慢。通过如下方式可以指定metadata个数,超过指定数量自动清理。 metadata文件对应Iceberg概念是Snapshots 二、解决方案 1、在建表时增加参数 ‘write.metadata.delete-after-commit.enable    阅读全文
posted @ 2024-01-02 10:19
Robots2
阅读(480)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、背景 我们使用 Iceberg 构建湖仓一体平台的初衷是希望解决业务方在使用 Hive 数仓时的一些痛点。主要包括以下几大方面: (1)现有的数据同步只支持全量同步,同步大表速度慢。 (2)Hive 的时效性不好,即使使用 FIink 流式的引擎写入,延迟也会在小时级别。 (3)Hive扫描数据    阅读全文
posted @ 2024-01-02 10:16
Robots2
阅读(975)
评论(0)
推荐(0)
        
            
        
        
摘要:        
1、查询表结构 show create table data_lake_ods.dws_service_subclazz_lesson_user_learn_stat_rt_v2 CREATE TABLE spark_catalog.data_lake_ods.test1 ( `user_numbe    阅读全文
posted @ 2024-01-02 10:12
Robots2
阅读(363)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、任务依赖信息 1、mysql测试库信息 地址:127.0.0.1、gomysql_bdg_test 库:bdg_test 表:order_info1 2、iceberg库 hive地址:thrift://127:7004 catalog-name:spark_catalog Format版本:v    阅读全文
posted @ 2024-01-02 10:05
Robots2
阅读(299)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、同步工具简介 1、腾讯数据集成产品:数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),支持一站式跨云跨网数据同步 产品文档:https://cloud.tencent.com/document/product/1580/73382 2    阅读全文
posted @ 2024-01-02 09:57
Robots2
阅读(612)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、介绍 SeaTunnel 是一个非常好用、超高性能的分布式数据集成平台,架构于 Apache Spark 和 Apache Flink 之上,实现了海量数据的实时同步与转换。每天可以稳定高效地同步数百亿数据,目前已接近百家公司在生产上使用 依赖环境:Spark3.2.1、FLink 运行服务器:    阅读全文
posted @ 2024-01-02 09:54
Robots2
阅读(1954)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、服务配置 已配置好gt_oneline_2,其它集群还需按照下面方式特殊配置 1、需要腾讯Oceanus同学在后端修改高途flink集群配置core-site.xml文件,增加如下配置。只能绑定一个chdfs环境,这边绑定的测试环境,线上环境需要改qcloud.object.storage.zk    阅读全文
posted @ 2024-01-02 09:50
Robots2
阅读(75)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、集群配置 1、版本使用 技术 版本 iceberg 1.3.1 flink 1.16.1 spark 3.2.1 hive 2.3.7 dlc-presto 待定 2、集群配置调整 (1)使用hive查询的话所有hiveserver2节点修改hive-site.xml文件,添加jar包,添加如下    阅读全文
posted @ 2024-01-02 09:45
Robots2
阅读(786)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、开发注意事项 1、Iceberg选择合适的表版本 简述:Iceberg目前有两个表版本(V1和V2),根据数据选择合适的表版本。 V1表只支持增量数据插入,适合做纯增量写入场景,如埋点数据。 V2表才支持行级更新,适合做状态变化的更新,如订单表同步。 使用方式:建表语句时指定版本'format-    阅读全文
posted @ 2024-01-02 09:35
Robots2
阅读(322)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、建表优化 1、iceberg表支持更新操作。 文档:https://iceberg.apache.org/docs/latest/configuration/ 功能描述:因v1只支持insert,如果有更新场景,则需要建表时指定format为V2版本 参数:'format-version'='2    阅读全文
posted @ 2024-01-02 09:34
Robots2
阅读(487)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、简述 Kyuubi调用Spark来查询iceberg表,修改Spark配置信息即可。 二、服务配置 1、上传jar包到Kyuubi server节点 可以选择emr spark组件后,按照配置组(kyuubi-spark321)筛选kyuubi节点。 hadoop用户上传jar包:tx-iceb    阅读全文
posted @ 2024-01-02 09:32
Robots2
阅读(193)
评论(0)
推荐(0)
        
                    
                
浙公网安备 33010602011771号