頭がいい天才

2024年12月10日

摘要：背景有个比较大的技术侧需求: 将数据从 HDFS 迁移到 s3。当然在真正迁移之前，还需要验证迁移到 s3 的数据，和上层查询器（hive、presto 之间的兼容性）这里我们对一张业务表的数据做个简单的迁移测试验证数据迁移为了让 hdfs 指令能直接操作 s3 的数据，参考 Using 阅读全文

posted @ 2024-12-10 23:23 頭がいい天才阅读(123) 评论(0) 推荐(0)

mongodb数据同步到hive

摘要：背景用户需求: 需要将 mongodb 的数据同步到 hive 表，共 2 亿+条数据，总数据量约 30G 查阅一些博客后，大致同步方法有以下几种手动+离线对于比较小的数据，可以先通过 mongoexport 将数据导出到本地 json 文件，再将 json 直接上传到 hdfs，创建 hiv 阅读全文

posted @ 2024-12-10 11:07 頭がいい天才阅读(245) 评论(0) 推荐(0)

2024年11月11日

flink cdc 3.0 "尝鲜"

摘要：本文公众号背景在大数据实时同步的场景中，一个常见场景是从 mysql OLTP 数据库同步到 doris OLAP 数据库，前者属于业务系统通常情况下使用的数据库，后者提供给业务的同事进行高并发、大批量的数据计算和分析今年年初时，我们这里的部署方案还是 flink cdc 2.4 + flin 阅读全文

posted @ 2024-11-11 10:55 頭がいい天才阅读(606) 评论(0) 推荐(0)

2024年7月28日

azkaban-tools 项目介绍

摘要：本文公众号地址本文背景应一个用户的好心和好奇心，在最近水深火热的百忙之中抽时间写完了一个简短的项目介绍，其实就是几个azkaban的批量操作脚本，但在大数据集群的“运维生涯”中，还是帮了自己不少忙，也算是为了它做一个简单的回顾吧项目背景 azkaban 是一个大数据领域通用的任务管理服务，它的阅读全文

posted @ 2024-07-28 18:54 頭がいい天才阅读(63) 评论(0) 推荐(0)

2024年7月17日

make sadservers happy again

摘要：背景从阮一峰老师的博客了解到 sadserver 这样一个可以提供 linux 服务器，并尝试解决系统和服务相关问题的在线测试平台。非常难得的是它可以直接提供一个公网的 linux 服务器（一般40-60分钟后会自动销毁），你可以在上面做任何探索。对于想要学习常用 linux 指令的同学，是一阅读全文

posted @ 2024-07-17 11:35 頭がいい天才阅读(111) 评论(0) 推荐(0)

smiecj

公告