摘要: Large states in our workload makes it infeasible to maintain everything in memory. Thus, we rely heavily on the RocksDB state backend to manage our gr 阅读全文
posted @ 2020-06-05 14:55 大数据从业者FelixZh 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据 阅读全文
posted @ 2020-06-05 14:26 大数据从业者FelixZh 阅读(5954) 评论(0) 推荐(0) 编辑