会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
leesf
掌控之中,才会成功;掌控之外,注定失败。
博客园
首页
新随笔
联系
管理
2020年6月15日
使用Apache Spark和Apache Hudi构建分析数据湖
摘要: 1. 引入 大多数现代数据湖都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用,如数百GB到TB的数据。 但是在构建分析数据湖时,更新数据并不罕见。根据不同场景,这些更新频率可能是每
阅读全文
posted @ 2020-06-15 09:27 leesf
阅读(4647)
评论(0)
推荐(0)
编辑
公告