2022年1月20日

[离线计算-Spark|Hive] HDFS小文件处理

摘要: 本文主要介绍小文件的处理方法思路,以及通过阅读源码和相关资料学习hudi 如何在写入时智能的处理小文件问题新思路.Hudi利用spark 自定义分区的机制优化记录分配到不同文件的能力,达到小文件的合并处理. 阅读全文

posted @ 2022-01-20 22:36 chaplinthink 阅读(556) 评论(0) 推荐(0)

导航