Fork me on GitHub

大数据架构痛点| 数据湖的解决方案

数据湖如何助力企业大数据中台架构的升级

1.大数据平台架构

数据处理的流程:

  采集-->清洗-->存储
    -->
  计算-->分析-->应用

HDFS架构

 

MapReduce的核心思想

 

 Hive的架构

 

 大数据平台整体架构

 

 

2.从数据库到数据仓库的演进过程

离线数据仓库

 

 实时数据仓库

 

 数据仓库特点

  • 集成性;
  • 主题性;
  • 稳定性;
  • 时效性;

数仓缺点:

  • 没有存储非结构化的数据
  • 没有保留原始的数据

结构化

非结构化(代码、日志、ppt、图片、音频、视频)

半结构化

数据湖的理念

  • 能够存储海量的原始数据,
  • 能够支持任意的数据格式,
  • 有较好的分析和处理能力

 


LakeHouse理念

Lakehouse = Data Lake + Data Warehouse

•开放性 使用的存储格式是开放式和标准化的(如parquet),并且为各类工具和引擎,包括机器学习和 Python/R库,提供API,以便它们可以直接有效地访问数据

•支持从非结构化数据到结构化数据的多种数据类型

•BI支持 Lakehouse可以直接在源数据上使用BI工具

•支持多种工作负载 包括数据科学、机器学习以及SQL和分析

•Schema enforcement and governance(模式实施和治理) 未来能更好的管理元数据,schema管理和治理,不让数据湖变成沼泽地

•事务支持

企业内部许多数据管道通常会并发读写数据。对ACID事务的支持确保了多方并发读写数据时的一致性问题

•端到端流 为了构建Lakehouse,需要一个增量数据处理框架,例如Apache Hudi。

 

 

3.数据湖和数据仓库理念上的对比

 

 

 

 

数仓开发流程

 

 

数据湖落地方案

 

 

4.数据湖助力于数仓解决痛点问题

离线数仓的痛点

 

 实时数仓的痛点

 

 Lambda架构痛点

 

 实时数仓的演进

 

 

5.数据湖帮助企业大数据中台升级

 

  • 底层存储标准统一化
  • 构建实时化标准层,去T+1,保证时效性
  • 数据存储更安全,更全面,可回溯性更便捷,运维成本更低

目前数仓的架构设计

 

大数据中台架构升级

数据在湖,模型在仓(折中方案)

 

 

实时数据建设要求

  实时化需求

  小时/ 天级别 ==>  分钟/ 秒级别

=>

  • 高效的Upsert操作;
  • 高效的回溯能力;
  • 支持Schema变更;
  • 支持ACID语义;
  • 支持Flink写操作;
  • 支持小文件压缩合并;

开源数据湖架构

6. 三个开源数据湖技术框架的比较

Apache hudi

di ingests & manages storage of large analytical datasets over DFS (hdfs or cloud stores). Hudi brings stream processing to big data, providing fresh data while being an order of magnitude efficient over

traditional batch processing.

ICEBERG 

Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Trino and Spark that use a high-performance format that works just like a SQL tab

DELTA LAKE

Delta Lake is an open-source project that enables building a Lakehouse architecture on top of existing storage systems such as S3, ADLS, GCS, and HDF

Delta、Hudi、Iceberg对比

Delta天然支持spark, 绑定了spark;

Delta功能不完善

Hudi功能比较完善

不再跟spark强绑定, 但对spark的支持性很好;

对flink支持的不太完善;


Iceberg比较灵活

不绑定引擎, spark/flink都可以

功能没Hudi完善

curd没Hudi好,大量小文件的处理不是特别好;

三个开源产品国内现状

 

 Hudi在业界的使用

 

 
posted @ 2021-09-26 21:38  kris12  阅读(1220)  评论(0编辑  收藏  举报
levels of contents