2023年4月10日
摘要: Apache Spark是一个用于大规模数据处理的快速、通用的计算引擎。是独立的分布式计算框架。 背景: Spark最初是作为一种替代Hadoop MapReduce的计算框架而开发的,也不使用Hadoop的文件系统或其他组件。Spark拥有自己的分布式存储系统(Spark RDD),可以直接从HD 阅读全文
posted @ 2023-04-10 23:52 黑逍逍 阅读(17) 评论(0) 推荐(0)
摘要: 数据血缘是指数据在企业内部的来源、流动和去向路径,也就是描述数据从产生到消亡的完整过程。数据血缘可以帮助企业了解数据的来源、去向、变化和加工过程,以保证数据的质量和可信度。 数据血缘通常包括以下几个方面: 数据源:数据血缘记录了数据的来源,包括数据的产生和采集的渠道,以及数据的初始状态和格式。 数据 阅读全文
posted @ 2023-04-10 23:44 黑逍逍 阅读(103) 评论(0) 推荐(0)
摘要: 通过各种图表,将企业内部数据进行展示 它提供了一种清晰的方式来了解和组织企业内部的数据资产 不是单纯的展示数据源 阅读全文
posted @ 2023-04-10 23:30 黑逍逍 阅读(333) 评论(0) 推荐(0)
摘要: 定义 数据仓库是一个用于存储和管理企业数据的集中式数据存储系统,用于支持企业决策和分析活动。 它是一个专门的数据存储区域,用于将来自多个数据源的数据集成在一起,并通过预处理、转换和清洗等操作,将其转换为易于分析和查询的格式。 通常,数据仓库采用面向主题的数据模型,即将同一业务主题相关的数据组织在一起 阅读全文
posted @ 2023-04-10 23:10 黑逍逍 阅读(307) 评论(0) 推荐(0)
摘要: HBase是一个基于Hadoop的开源、分布式、非关系型数据库,它是Google Bigtable的开源实现之一。 HBase旨在处理具有非常大规模的数据集,这些数据集通常存储在Hadoop分布式文件系统(HDFS)中,并且需要实时访问和随机读写。 HBase的数据模型类似于Google Bigta 阅读全文
posted @ 2023-04-10 14:53 黑逍逍 阅读(75) 评论(0) 推荐(0)
摘要: Hive是一个基于Hadoop的数据仓库工具,它提供了类似于SQL的查询语言(HiveQL)来对存储在Hadoop分布式文件系统(HDFS)中的数据进行查询和分析。 Hive的目标是使得数据分析人员可以使用熟悉的SQL语言进行数据分析,而无需编写MapReduce程序。 Hive将查询语句翻译为Ma 阅读全文
posted @ 2023-04-10 14:51 黑逍逍 阅读(25) 评论(0) 推荐(0)
摘要: Hadoop是一个开源的分布式计算平台,主要用于处理大规模数据集的存储和处理问题。它由Apache软件基金会开发和维护,是一个以Java编写的软件框架,提供了分布式文件系统(HDFS)和分布式计算框架(MapReduce)两个核心组件。 Hadoop的设计目标是处理大规模数据集,并且可以运行在廉价的 阅读全文
posted @ 2023-04-10 14:50 黑逍逍 阅读(23) 评论(0) 推荐(0)
摘要: MPP数据库是指“大规模并行处理”(Massively Parallel Processing)数据库,是一种用于处理大规模数据的数据库系统。它可以处理非常大的数据集并提供快速的数据访问和处理能力。 核心思想是将大型数据集分解成小的数据块,并在多个计算节点上并行处理这些块。 使用共享存储架构,其中多 阅读全文
posted @ 2023-04-10 14:47 黑逍逍 阅读(89) 评论(0) 推荐(0)