2020 年 6月 15 日随笔档案 - leesf

2020年6月15日

摘要： 1. 引入大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用，如数百GB到TB的数据。但是在构建分析数据湖时，更新数据并不罕见。根据不同场景，这些更新频率可能是每阅读全文

posted @ 2020-06-15 09:27 leesf 阅读(4647) 评论(0) 推荐(0) 编辑

leesf

掌控之中，才会成功；掌控之外，注定失败。

公告