大数据 - 随笔分类 - 黑逍逍

摘要：？？？阅读全文

posted @ 2023-06-01 17:47 黑逍逍阅读(41) 评论(0) 推荐(0)

摘要：下载Flink：访问Flink的官方网站（https://flink.apache.org/），在下载页面找到适合你操作系统的预编译二进制包。选择与你的操作系统和版本相对应的下载链接，点击下载。解压二进制包：下载完成后，将二进制包解压到你想要安装Flink的目录中。你可以使用命令行工具（如tar命阅读全文

posted @ 2023-06-01 14:38 黑逍逍阅读(303) 评论(0) 推荐(0)

什么是flink

摘要：https://flink.apache.org/zh/ Flink（Apache Flink）是一个开源的流处理和批处理框架，旨在处理大规模的数据流和批处理任务。它提供了高效、可扩展和容错的数据处理能力，适用于各种数据处理场景。以下是Flink的一些关键概念：流（Stream）：Flink以数阅读全文

posted @ 2023-06-01 14:26 黑逍逍阅读(537) 评论(0) 推荐(0)

什么是数据资产

摘要：数据资产是指组织或企业所拥有的具有价值和潜在利益的数据资源。它可以包括各种类型的数据，例如结构化数据（如数据库中的表格数据）、半结构化数据（如XML文档、JSON数据）和非结构化数据（如文本文档、图像、视频等）。数据资产具有重要的商业价值，可以用于支持决策、洞察业务趋势、进行分析和预测等。数据资产阅读全文

posted @ 2023-05-17 12:37 黑逍逍阅读(1613) 评论(0) 推荐(0)

mapreduce

摘要：MapReduce是一种分布式计算模型，用于处理大规模数据集的并行计算。它是由Google首先提出，并在Apache Hadoop项目中得到广泛实现和应用的 MapReduce模型的优势在于它的可扩展性和容错性。它可以在大规模的计算集群上并行处理数据，提供高性能和高可靠性。 MapReduce适用于阅读全文

posted @ 2023-05-15 23:02 黑逍逍阅读(130) 评论(0) 推荐(0)

zookooper

摘要：暂时理解不了阅读全文

posted @ 2023-05-15 22:06 黑逍逍阅读(30) 评论(0) 推荐(0)

YARN

摘要：YARN（Yet Another Resource Negotiator）是Hadoop的资源管理器。它是Hadoop生态系统中的一个核心组件，负责集群资源的调度和管理。 YARN的设计目标是将Hadoop从原始的MapReduce引擎扩展为一个通用的分布式计算平台，使得除了MapReduce之外阅读全文

posted @ 2023-05-15 22:02 黑逍逍阅读(173) 评论(0) 推荐(0)

kafka？

摘要：定义： Kafka是一种高吞吐量的分布式发布订阅消息系统，一款开源的分布式流处理平台，可以处理高吞吐量的实时数据流。它主要用于构建实时流数据管道和可靠的数据流处理应用程序，能够处理海量的流数据，支持水平扩展和高可用性部署。 Kafka的核心抽象是“topic”、“partition”、“offse 阅读全文

posted @ 2023-04-11 01:19 黑逍逍阅读(45) 评论(0) 推荐(0)

flink？

摘要：Flink是一种基于流数据流式处理引擎。与批处理不同，它的主要思想是数据流的概念，它可以被视为一系列连续的事件或记录，它们按照发生的时间顺序进行处理，而不是被分成离散的块进行处理。Flink可以接收无限数据流并实时处理它们，它的流式处理支持无限的数据流输入和输出，并且可以动态地对数据流进行处理和修改阅读全文

posted @ 2023-04-11 01:08 黑逍逍阅读(91) 评论(0) 推荐(0)

Hive是什么

摘要：Hive是一种基于Hadoop的数据仓库工具，它可以将结构化数据映射为一张数据库表，提供了类似于SQL的查询语言，使得数据分析师和开发人员可以使用SQL语句对分布式存储的数据进行查询和分析。 Hive可以将Hadoop分布式文件系统（HDFS）中的数据转换为SQL查询，从而使得分布式数据分析变得更加阅读全文

posted @ 2023-04-11 01:01 黑逍逍阅读(163) 评论(0) 推荐(0)

HDFS？

摘要：Hadoop分布式文件系统（HDFS）是Apache Hadoop生态系统的核心组件之一，它是一种设计用于存储和处理超大规模数据集的分布式文件系统。 HDFS是一个分布式文件系统，它将大文件切分成多个小文件存储在不同的计算机节点上，因此可以存储大规模的非结构化数据，例如文本、图像、音频和视频等。 H 阅读全文

posted @ 2023-04-11 00:56 黑逍逍阅读(315) 评论(0) 推荐(0)

spark？

摘要：Apache Spark是一个用于大规模数据处理的快速、通用的计算引擎。是独立的分布式计算框架。背景： Spark最初是作为一种替代Hadoop MapReduce的计算框架而开发的，也不使用Hadoop的文件系统或其他组件。Spark拥有自己的分布式存储系统（Spark RDD），可以直接从HD 阅读全文

posted @ 2023-04-10 23:52 黑逍逍阅读(29) 评论(0) 推荐(0)

血缘？

摘要：数据血缘是指数据在企业内部的来源、流动和去向路径，也就是描述数据从产生到消亡的完整过程。数据血缘可以帮助企业了解数据的来源、去向、变化和加工过程，以保证数据的质量和可信度。数据血缘通常包括以下几个方面：数据源：数据血缘记录了数据的来源，包括数据的产生和采集的渠道，以及数据的初始状态和格式。数据阅读全文

posted @ 2023-04-10 23:44 黑逍逍阅读(116) 评论(0) 推荐(0)

啥玩意

摘要：通过各种图表，将企业内部数据进行展示它提供了一种清晰的方式来了解和组织企业内部的数据资产不是单纯的展示数据源阅读全文

posted @ 2023-04-10 23:30 黑逍逍阅读(338) 评论(0) 推荐(0)

什么是数据仓库

摘要：定义数据仓库是一个用于存储和管理企业数据的集中式数据存储系统，用于支持企业决策和分析活动。它是一个专门的数据存储区域，用于将来自多个数据源的数据集成在一起，并通过预处理、转换和清洗等操作，将其转换为易于分析和查询的格式。通常，数据仓库采用面向主题的数据模型，即将同一业务主题相关的数据组织在一起阅读全文

posted @ 2023-04-10 23:10 黑逍逍阅读(332) 评论(0) 推荐(0)

hbase快速入门

摘要：HBase是一个基于Hadoop的开源、分布式、非关系型数据库，它是Google Bigtable的开源实现之一。 HBase旨在处理具有非常大规模的数据集，这些数据集通常存储在Hadoop分布式文件系统（HDFS）中，并且需要实时访问和随机读写。 HBase的数据模型类似于Google Bigta 阅读全文

posted @ 2023-04-10 14:53 黑逍逍阅读(91) 评论(0) 推荐(0)

hive快速入门

摘要：Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言（HiveQL）来对存储在Hadoop分布式文件系统（HDFS）中的数据进行查询和分析。 Hive的目标是使得数据分析人员可以使用熟悉的SQL语言进行数据分析，而无需编写MapReduce程序。 Hive将查询语句翻译为Ma 阅读全文

posted @ 2023-04-10 14:51 黑逍逍阅读(45) 评论(0) 推荐(0)

快速入门.

摘要：Hadoop是一个开源的分布式计算平台，主要用于处理大规模数据集的存储和处理问题。它由Apache软件基金会开发和维护，是一个以Java编写的软件框架，提供了分布式文件系统（HDFS）和分布式计算框架（MapReduce）两个核心组件。 Hadoop的设计目标是处理大规模数据集，并且可以运行在廉价的阅读全文

posted @ 2023-04-10 14:50 黑逍逍阅读(37) 评论(0) 推荐(0)

随笔分类 - 大数据

公告