摘要: 背景 有个比较大的技术侧需求: 将数据从 HDFS 迁移到 s3。当然在真正迁移之前,还需要验证迁移到 s3 的数据,和上层查询器(hive、presto 之间的兼容性) 这里我们对一张业务表的数据做个简单的迁移测试 验证 数据迁移 为了让 hdfs 指令能直接操作 s3 的数据,参考 Using 阅读全文
posted @ 2024-12-10 23:23 頭がいい天才 阅读(123) 评论(0) 推荐(0)
摘要: 背景 用户需求: 需要将 mongodb 的数据同步到 hive 表,共 2 亿+条数据,总数据量约 30G 查阅一些博客后,大致同步方法有以下几种 手动+离线 对于比较小的数据,可以先通过 mongoexport 将数据导出到本地 json 文件,再将 json 直接上传到 hdfs,创建 hiv 阅读全文
posted @ 2024-12-10 11:07 頭がいい天才 阅读(245) 评论(0) 推荐(0)
摘要: 本文公众号 背景 在大数据实时同步的场景中,一个常见场景是从 mysql OLTP 数据库同步到 doris OLAP 数据库,前者属于业务系统通常情况下使用的数据库,后者提供给业务的同事进行高并发、大批量的数据计算和分析 今年年初时,我们这里的部署方案还是 flink cdc 2.4 + flin 阅读全文
posted @ 2024-11-11 10:55 頭がいい天才 阅读(606) 评论(0) 推荐(0)
摘要: 本文公众号地址 本文背景 应一个用户的好心和好奇心,在最近水深火热的百忙之中抽时间写完了一个简短的项目介绍,其实就是几个azkaban的批量操作脚本,但在大数据集群的“运维生涯”中,还是帮了自己不少忙,也算是为了它做一个简单的回顾吧 项目背景 azkaban 是一个大数据领域通用的任务管理服务,它的 阅读全文
posted @ 2024-07-28 18:54 頭がいい天才 阅读(63) 评论(0) 推荐(0)
摘要: 背景 从 阮一峰老师的博客 了解到 sadserver 这样一个可以提供 linux 服务器,并尝试解决系统和服务相关问题的在线测试平台。非常难得的是它可以直接提供一个公网的 linux 服务器(一般40-60分钟后会自动销毁),你可以在上面做任何探索。对于想要学习常用 linux 指令的同学,是一 阅读全文
posted @ 2024-07-17 11:35 頭がいい天才 阅读(111) 评论(0) 推荐(0)