Robots2

2024年4月22日

摘要：一、问题追踪问题详细描述提出问题时间是否完成计划完成时间备注了解Iceberg数据存储方式了解元数据存储信息、数据组织方式、查询时处理流程等 20231013 是 20231019 ！！！20231124前均为大致的时间调研报告：调研报告-基于 Iceberg 构建湖仓一体平台调研阅读全文

posted @ 2024-04-22 10:55 Robots2 阅读(334) 评论(0) 推荐(0)

Iceberg常用命令

摘要：一、登录spark客户端 spark-sql --master yarn \ --deploy-mode client \ --queue default \ --name wang \ --driver-memory 12G \ --num-executors 10 \ --executor-co 阅读全文

posted @ 2024-04-22 10:48 Robots2 阅读(480) 评论(0) 推荐(0)

同步工具-腾讯EMR表治理工具安装使用

摘要：一、安装 1、root用户上传文件 cd wangrz -bey luoshu-1.0-bin.tar.gz 2、解压文件到服务目录重新安装洛书需执行：rm -rf /usr/local/service/luoshu mkdir /usr/local/service/luoshu tar -zxf 阅读全文

posted @ 2024-04-22 10:45 Robots2 阅读(85) 评论(0) 推荐(0)

2024年4月19日

使用iceberg-flink读取iceberg v2表

摘要：一、背景 mysql数据入湖后，有同事需要实时抽取iceberg v2表，想通过iceberg做分钟级实时数仓。目前flink社区暂不支持读取v2表。腾讯内部支持目前只能用Oceanus内置connector，支持flink1.13版本。需要读写时都用iceberg-1.1去处理，因为写入是定制i 阅读全文

posted @ 2024-04-19 16:47 Robots2 阅读(604) 评论(0) 推荐(0)

数据同步-同步mysql到iceberg后如何确定数据一致性

摘要：一、数据打快照做数据比较 1、mysql创建快照优点：可以选择时间做快照，然后对比缺点：需要额外的存储空间和处理时间，不好自动化，大表做快照成本高 2、实现方式 create database 快照名称 on (name=数据库名称,filename='存放快照路径/文件名.ss' as sna 阅读全文

posted @ 2024-04-19 15:09 Robots2 阅读(191) 评论(0) 推荐(0)

2024年4月18日

mac安装nodejs、npm包设置

摘要：一、安装nodejs 1、下载自己系统的nodejs，我选择18.20版本 https://nodejs.cn/download/ 二、设置 1、设置镜像源： npm config set registry https://registry.npmmirror.com 2、在命令行中创建一个文件.n 阅读全文

posted @ 2024-04-18 22:46 Robots2 阅读(3280) 评论(0) 推荐(0)

2024年3月1日

Mac常用系统配置

摘要：一、系统类 1、隐藏文件夹打开控制台输入：chflags hidden [拖入需要隐藏的文件夹] 2、特定软件触控栏一直显示F1-F12 选择左上角苹果-》系统设置-》键盘-》 3、设置三指拖拽 4、安装brew /bin/zsh -c "$(curl -fsSL https://gitee.co 阅读全文

posted @ 2024-03-01 15:21 Robots2 阅读(63) 评论(0) 推荐(0)

2024年1月17日

任务调度器Azkaban（Azkaban环境部署）

摘要：文章链接：https://www.cnblogs.com/liugp/p/16273966.html 阅读全文

posted @ 2024-01-17 18:27 Robots2 阅读(31) 评论(0) 推荐(0)

2024年1月2日

Iceberg调研报告-腾讯数据集成工具报告

摘要：标题测试报告背景目标大航海databus任务在合并阶段费资源，且大表执行时间较长，期望缩短同步时间可以10分钟抽10亿条数据。数据同步需要先建表，再建任务，配置不方便。结论在满足配置时可以达到期望速度，配置如下所需环境信息 mysql CPU:16核内存:32G IOPS:32000 阅读全文

posted @ 2024-01-02 10:34 Robots2 阅读(86) 评论(0) 推荐(0)

表治理-Iceberg过期快照清理

摘要：总结指标清理前（已优化小文件）清理后查询速度 13秒 15秒（波动）表总大小 26.4G 17.2G metadata目录文件数 75 42 data目录文件数 1501 602 ！！！需要先做小文件合并，然后再做过期快照比较好。小文件合并：Iceberg小文件合并测试一、清理任务资源阅读全文

posted @ 2024-01-02 10:29 Robots2 阅读(645) 评论(0) 推荐(0)

公告