关于数据湖、数据仓库的想法

一:数据糊定义:
1、数据湖的出现,主要是为了去满足企业对原始数据的存储、管理和再加工的需求。首先要有一个低成本的存储,用于存储结构化、半结构化,甚至非结构化的数据;另外,有一套包括数据处理、数据管理以及数据治理在内的一体化解决方案。
2、从0到1搭建数据糊,原始数据存储在hdfs上,然后上层构建计算层、分析层等。

它和数据仓库的区别在于:把结构化和非结构化的数据集中存储。

doris在数据糊中的应用:

  • 利用 Doris 非常高效的查询引擎,对湖上数据进行加速分析。
  • 把这些外部的数据源,统一到 Doris 的源数据的映射结构上,用户在通过 Doris 去查询这些外部数据源的时候,可以提供一致的查询体验。https://doris.apache.org/zh-CN/docs/lakehouse/database/jdbc
  • 统一数据集成。利用 Doris 的数据处理能力对这些数据进行加工。加工完的数据一方面可以直接通过 Doris 对外提供查询,也可以导出到外部存储系统(如ES)

二:doris使用场景拓展:
1、doris除了适合数据分析场景,在时序数据和日志数据存储方面表现也很优秀。
https://www.selectdb.com/blog/355

2、https://www.infoq.cn/article/mow1cjlqo2ih6zkdozes

三:结合一、二两点,我们在业务上可以把这几类数据统一起来,打通数据孤岛,降低运维成本。
目前现状:

  • 数据分析: doris
  • 时序数据:
    • 存储influxdb。
    • 使用场景:查询车辆轨迹、空间索引、倒排索引(查询一个客户的设备数据)
    • 开源版本不支持分布式
  • 物联网报文:
    • 存储es。
    • 使用场景:有全文检索的需求

这几类数据可以集中存储在doris中。同时带来的缺点:

  • es有kibana UI工具,influxdb也有配套的生态,doris会缺失这些。
  • 解决办法:数据双写,doris真正用来支撑业务,而es、influxdb用来存储热数据便于使用UI工具查询

四:业务上需要理清数据流、数据血缘关系

posted @ 2024-06-06 07:09  耗子哥信徒  阅读(54)  评论(0)    收藏  举报