2023 年 4月 10 日随笔档案 - 黑逍逍

2023年4月10日

摘要： Apache Spark是一个用于大规模数据处理的快速、通用的计算引擎。是独立的分布式计算框架。背景： Spark最初是作为一种替代Hadoop MapReduce的计算框架而开发的，也不使用Hadoop的文件系统或其他组件。Spark拥有自己的分布式存储系统（Spark RDD），可以直接从HD 阅读全文

posted @ 2023-04-10 23:52 黑逍逍阅读(21) 评论(0) 推荐(0)

血缘？

摘要：数据血缘是指数据在企业内部的来源、流动和去向路径，也就是描述数据从产生到消亡的完整过程。数据血缘可以帮助企业了解数据的来源、去向、变化和加工过程，以保证数据的质量和可信度。数据血缘通常包括以下几个方面：数据源：数据血缘记录了数据的来源，包括数据的产生和采集的渠道，以及数据的初始状态和格式。数据阅读全文

posted @ 2023-04-10 23:44 黑逍逍阅读(105) 评论(0) 推荐(0)

啥玩意

摘要：通过各种图表，将企业内部数据进行展示它提供了一种清晰的方式来了解和组织企业内部的数据资产不是单纯的展示数据源阅读全文

posted @ 2023-04-10 23:30 黑逍逍阅读(336) 评论(0) 推荐(0)

什么是数据仓库

摘要：定义数据仓库是一个用于存储和管理企业数据的集中式数据存储系统，用于支持企业决策和分析活动。它是一个专门的数据存储区域，用于将来自多个数据源的数据集成在一起，并通过预处理、转换和清洗等操作，将其转换为易于分析和查询的格式。通常，数据仓库采用面向主题的数据模型，即将同一业务主题相关的数据组织在一起阅读全文

posted @ 2023-04-10 23:10 黑逍逍阅读(318) 评论(0) 推荐(0)

hbase快速入门

摘要： HBase是一个基于Hadoop的开源、分布式、非关系型数据库，它是Google Bigtable的开源实现之一。 HBase旨在处理具有非常大规模的数据集，这些数据集通常存储在Hadoop分布式文件系统（HDFS）中，并且需要实时访问和随机读写。 HBase的数据模型类似于Google Bigta 阅读全文

posted @ 2023-04-10 14:53 黑逍逍阅读(80) 评论(0) 推荐(0)

hive快速入门

摘要： Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言（HiveQL）来对存储在Hadoop分布式文件系统（HDFS）中的数据进行查询和分析。 Hive的目标是使得数据分析人员可以使用熟悉的SQL语言进行数据分析，而无需编写MapReduce程序。 Hive将查询语句翻译为Ma 阅读全文

posted @ 2023-04-10 14:51 黑逍逍阅读(33) 评论(0) 推荐(0)

快速入门.

摘要： Hadoop是一个开源的分布式计算平台，主要用于处理大规模数据集的存储和处理问题。它由Apache软件基金会开发和维护，是一个以Java编写的软件框架，提供了分布式文件系统（HDFS）和分布式计算框架（MapReduce）两个核心组件。 Hadoop的设计目标是处理大规模数据集，并且可以运行在廉价的阅读全文

posted @ 2023-04-10 14:50 黑逍逍阅读(28) 评论(0) 推荐(0)

快速入门

摘要： MPP数据库是指“大规模并行处理”（Massively Parallel Processing）数据库，是一种用于处理大规模数据的数据库系统。它可以处理非常大的数据集并提供快速的数据访问和处理能力。核心思想是将大型数据集分解成小的数据块，并在多个计算节点上并行处理这些块。使用共享存储架构，其中多阅读全文

posted @ 2023-04-10 14:47 黑逍逍阅读(93) 评论(0) 推荐(0)

公告