会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
努力爬呀爬
博客园
首页
新随笔
联系
订阅
管理
2021年11月11日
hudi clustering 数据聚集(一)
摘要: 概要 数据湖的业务场景主要包括对数据库、日志、文件的分析,而管理数据湖有两点比较重要:写入的吞吐量和查询性能,这里主要说明以下问题: 1、为了获得更好的写入吞吐量,通常把数据直接写入文件中,这种情况下会产生很多小的数据文件。虽然小文件的使用可以增加写入的并行度,且能够并行读取文件以提高读取速度,但会
阅读全文
posted @ 2021-11-11 09:03 努力爬呀爬
阅读(610)
评论(0)
推荐(0)
编辑
公告