随笔分类 -  DataLake

摘要:一、数据内容 t20 ├── data │ ├── 00000-0-9c7ff22e-a767-4b85-91ec-a2771e54c209-00001.parquet │ └── 00000-0-ecd3f21c-1bc0-4cdc-8917-d9a1afe7ce55-00001.parquet 阅读全文
posted @ 2021-05-19 01:35 码以致用 阅读(1753) 评论(0) 推荐(0)
摘要:Flink: 1.11.0 Iceberg: 0.11.1 hive: 2.3.8 hadoop: 3.2.2 java: 1.8 scala: 2.11 一、下载或编译iceberg-flink-runtime jar包 下载 wget https://repo.maven.apache.org/ 阅读全文
posted @ 2021-05-12 11:02 码以致用 阅读(984) 评论(0) 推荐(0)
摘要:架构 开源分布式流存储服务 本质是在计算引擎与底层存储间充当解耦层,旨在解决新一代大数据平台在数据存储层上的挑战 1、数据湖 Pravega 提供的 Stream 原语可以避免现有大数据架构中原始数据在多个开源存储搜索产品中移动而产生的数据冗余现象,其在存储层就完成了统一的数据湖(一处存储,多处使用 阅读全文
posted @ 2020-08-13 10:42 码以致用 阅读(1257) 评论(0) 推荐(0)