关于数据湖、数据仓库的想法

一：数据糊定义：
1、数据湖的出现，主要是为了去满足企业对原始数据的存储、管理和再加工的需求。首先要有一个低成本的存储，用于存储结构化、半结构化，甚至非结构化的数据；另外，有一套包括数据处理、数据管理以及数据治理在内的一体化解决方案。
2、从0到1搭建数据糊，原始数据存储在hdfs上，然后上层构建计算层、分析层等。

它和数据仓库的区别在于：把结构化和非结构化的数据集中存储。

doris在数据糊中的应用：

利用 Doris 非常高效的查询引擎，对湖上数据进行加速分析。
把这些外部的数据源，统一到 Doris 的源数据的映射结构上，用户在通过 Doris 去查询这些外部数据源的时候，可以提供一致的查询体验。https://doris.apache.org/zh-CN/docs/lakehouse/database/jdbc
统一数据集成。利用 Doris 的数据处理能力对这些数据进行加工。加工完的数据一方面可以直接通过 Doris 对外提供查询，也可以导出到外部存储系统（如ES）

二：doris使用场景拓展：
1、doris除了适合数据分析场景，在时序数据和日志数据存储方面表现也很优秀。
https://www.selectdb.com/blog/355

2、https://www.infoq.cn/article/mow1cjlqo2ih6zkdozes

三：结合一、二两点，我们在业务上可以把这几类数据统一起来，打通数据孤岛，降低运维成本。
目前现状：

数据分析： doris
时序数据：
- 存储influxdb。
- 使用场景：查询车辆轨迹、空间索引、倒排索引（查询一个客户的设备数据）
- 开源版本不支持分布式
物联网报文：
- 存储es。
- 使用场景：有全文检索的需求

这几类数据可以集中存储在doris中。同时带来的缺点：

es有kibana UI工具，influxdb也有配套的生态，doris会缺失这些。
解决办法：数据双写，doris真正用来支撑业务，而es、influxdb用来存储热数据便于使用UI工具查询

四：业务上需要理清数据流、数据血缘关系

posted @ 2024-06-06 07:09 耗子哥信徒阅读(88) 评论(0) 收藏举报

刷新页面返回顶部

技术改变人生

关于数据湖、数据仓库的想法

公告