[离线计算-Spark|Hive] HDFS小文件处理
摘要:本文主要介绍小文件的处理方法思路,以及通过阅读源码和相关资料学习hudi 如何在写入时智能的处理小文件问题新思路.Hudi利用spark 自定义分区的机制优化记录分配到不同文件的能力,达到小文件的合并处理.
阅读全文
posted @ 2022-01-20 22:36
posted @ 2022-01-20 22:36
posted @ 2022-01-17 22:27
posted @ 2022-01-11 00:12
posted @ 2022-01-05 23:57