2022年2月26日

Hudi-数据写操作流程

摘要: 概述 在hudi数据湖框架中支持三种方式写入数据:UPSERT(插入更新)、INSERT(插入)和BULK INSERT(写排序) UPSERT:默认行为,数据先通过index打标(INSERT/UPDATE),有一些启发式算法决定消息的组织以优化文件的大小 INSERT:跳过index,写入效率更 阅读全文

posted @ 2022-02-26 22:13 嘣嘣嚓 阅读(1163) 评论(0) 推荐(0)

Hudi-表的存储类型及比较

摘要: 总述 Hudi提供两类型表:写时复制(Copy on Write, COW)表和读时合并(Merge On Read, MOR)表。 对于Copy-On-Write Table,用户的update会重写数据所在的文件,所以是一个写放大很高,但是读放大为0,适合写少读多的场景。 对于Merge-On- 阅读全文

posted @ 2022-02-26 21:43 嘣嘣嚓 阅读(2130) 评论(0) 推荐(0)

导航