2022 年 1月随笔档案 - chaplinthink

[离线计算-Spark|Hive] HDFS小文件处理

摘要：本文主要介绍小文件的处理方法思路,以及通过阅读源码和相关资料学习hudi 如何在写入时智能的处理小文件问题新思路.Hudi利用spark 自定义分区的机制优化记录分配到不同文件的能力,达到小文件的合并处理. 阅读全文

posted @ 2022-01-20 22:36 chaplinthink 阅读(560) 评论(0) 推荐(0)

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

摘要：本文主要针对hudi进行调研, 设计MySQL CDC 近实时同步至数仓中方案, 写入主要利用hudi的upsert以及delete能力. 针对hudi 表的查询,引入kyuubi 框架,除了增强平台 spark sql 一些即席查询服务的能力外,同时支持查询hudi表,并可以实现hudi表与hive表的联合查询, 同时对原有hive相关服务没有太大影响. 阅读全文

posted @ 2022-01-17 22:27 chaplinthink 阅读(834) 评论(0) 推荐(1)

[离线计算-Spark|Hive] 大数据应用性能指标采集工具改造落地

摘要：本文主要介绍了下Uber的开源项目jvm-profiler的产生背景,设计原理以及架构, 后面也设计了一套落地方案,用于采集spark、hive任务的资源消耗相关指标,可用于后续分析以及资源调优. 阅读全文

posted @ 2022-01-11 00:12 chaplinthink 阅读(448) 评论(0) 推荐(0)

[平台建设] 日志数据同步数仓设计

摘要：本文主要针对日志数据接入数据仓库场景进行设计, 同时介绍了下在设计接入时的一些细节,针对可能出现的问题进行必要的处理. 阅读全文

posted @ 2022-01-05 23:57 chaplinthink 阅读(273) 评论(0) 推荐(0)

chaplinthink

01 2022 档案

[离线计算-Spark|Hive] HDFS小文件处理

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

[离线计算-Spark|Hive] 大数据应用性能指标采集工具改造落地

[平台建设] 日志数据同步数仓设计

导航