随笔分类 - 大数据
            
    flink安装(无hadoop)
    
            
            
        
摘要:下载Flink:访问Flink的官方网站(https://flink.apache.org/),在下载页面找到适合你操作系统的预编译二进制包。选择与你的操作系统和版本相对应的下载链接,点击下载。 解压二进制包:下载完成后,将二进制包解压到你想要安装Flink的目录中。你可以使用命令行工具(如tar命
        阅读全文
            
        
            
    什么是flink
    
            
            
        
摘要:https://flink.apache.org/zh/ Flink(Apache Flink)是一个开源的流处理和批处理框架,旨在处理大规模的数据流和批处理任务。它提供了高效、可扩展和容错的数据处理能力,适用于各种数据处理场景。 以下是Flink的一些关键概念: 流(Stream):Flink以数
        阅读全文
            
        
            
    什么是数据资产
    
            
            
        
摘要:数据资产是指组织或企业所拥有的具有价值和潜在利益的数据资源。它可以包括各种类型的数据,例如结构化数据(如数据库中的表格数据)、半结构化数据(如XML文档、JSON数据)和非结构化数据(如文本文档、图像、视频等)。数据资产具有重要的商业价值,可以用于支持决策、洞察业务趋势、进行分析和预测等。 数据资产
        阅读全文
            
        
            
    mapreduce
    
            
            
        
            
        
摘要:MapReduce是一种分布式计算模型,用于处理大规模数据集的并行计算。它是由Google首先提出,并在Apache Hadoop项目中得到广泛实现和应用的 MapReduce模型的优势在于它的可扩展性和容错性。它可以在大规模的计算集群上并行处理数据,提供高性能和高可靠性。 MapReduce适用于
        阅读全文
            
        
            
    YARN
    
            
            
        
摘要:YARN(Yet Another Resource Negotiator)是Hadoop的资源管理器。 它是Hadoop生态系统中的一个核心组件,负责集群资源的调度和管理。 YARN的设计目标是将Hadoop从原始的MapReduce引擎扩展为一个通用的分布式计算平台,使得除了MapReduce之外
        阅读全文
            
        
            
    kafka?
    
            
            
        
摘要:定义: Kafka是一种高吞吐量的分布式发布订阅消息系统,一款开源的分布式流处理平台,可以处理高吞吐量的实时数据流。 它主要用于构建实时流数据管道和可靠的数据流处理应用程序,能够处理海量的流数据,支持水平扩展和高可用性部署。 Kafka的核心抽象是“topic”、“partition”、“offse
        阅读全文
            
        
            
    flink?
    
            
            
        
摘要:Flink是一种基于流数据流式处理引擎。与批处理不同,它的主要思想是数据流的概念,它可以被视为一系列连续的事件或记录,它们按照发生的时间顺序进行处理,而不是被分成离散的块进行处理。Flink可以接收无限数据流并实时处理它们,它的流式处理支持无限的数据流输入和输出,并且可以动态地对数据流进行处理和修改
        阅读全文
            
        
            
    Hive是什么
    
            
            
        
摘要:Hive是一种基于Hadoop的数据仓库工具,它可以将结构化数据映射为一张数据库表,提供了类似于SQL的查询语言,使得数据分析师和开发人员可以使用SQL语句对分布式存储的数据进行查询和分析。 Hive可以将Hadoop分布式文件系统(HDFS)中的数据转换为SQL查询,从而使得分布式数据分析变得更加
        阅读全文
            
        
            
    HDFS?
    
            
            
        
摘要:Hadoop分布式文件系统(HDFS)是Apache Hadoop生态系统的核心组件之一,它是一种设计用于存储和处理超大规模数据集的分布式文件系统。 HDFS是一个分布式文件系统,它将大文件切分成多个小文件存储在不同的计算机节点上,因此可以存储大规模的非结构化数据,例如文本、图像、音频和视频等。 H
        阅读全文
            
        
            
    spark?
    
            
            
        
摘要:Apache Spark是一个用于大规模数据处理的快速、通用的计算引擎。是独立的分布式计算框架。 背景: Spark最初是作为一种替代Hadoop MapReduce的计算框架而开发的,也不使用Hadoop的文件系统或其他组件。Spark拥有自己的分布式存储系统(Spark RDD),可以直接从HD
        阅读全文
            
        
            
    血缘?
    
            
            
        
            
        
摘要:数据血缘是指数据在企业内部的来源、流动和去向路径,也就是描述数据从产生到消亡的完整过程。数据血缘可以帮助企业了解数据的来源、去向、变化和加工过程,以保证数据的质量和可信度。 数据血缘通常包括以下几个方面: 数据源:数据血缘记录了数据的来源,包括数据的产生和采集的渠道,以及数据的初始状态和格式。 数据
        阅读全文
            
        
            
    什么是数据仓库
    
            
            
        
摘要:定义 数据仓库是一个用于存储和管理企业数据的集中式数据存储系统,用于支持企业决策和分析活动。 它是一个专门的数据存储区域,用于将来自多个数据源的数据集成在一起,并通过预处理、转换和清洗等操作,将其转换为易于分析和查询的格式。 通常,数据仓库采用面向主题的数据模型,即将同一业务主题相关的数据组织在一起
        阅读全文
            
        
            
    hbase快速入门
    
            
            
        
摘要:HBase是一个基于Hadoop的开源、分布式、非关系型数据库,它是Google Bigtable的开源实现之一。 HBase旨在处理具有非常大规模的数据集,这些数据集通常存储在Hadoop分布式文件系统(HDFS)中,并且需要实时访问和随机读写。 HBase的数据模型类似于Google Bigta
        阅读全文
            
        
            
    hive快速入门
    
            
            
        
摘要:Hive是一个基于Hadoop的数据仓库工具,它提供了类似于SQL的查询语言(HiveQL)来对存储在Hadoop分布式文件系统(HDFS)中的数据进行查询和分析。 Hive的目标是使得数据分析人员可以使用熟悉的SQL语言进行数据分析,而无需编写MapReduce程序。 Hive将查询语句翻译为Ma
        阅读全文
            
        
            
    快速入门.
    
            
    
摘要:Hadoop是一个开源的分布式计算平台,主要用于处理大规模数据集的存储和处理问题。它由Apache软件基金会开发和维护,是一个以Java编写的软件框架,提供了分布式文件系统(HDFS)和分布式计算框架(MapReduce)两个核心组件。 Hadoop的设计目标是处理大规模数据集,并且可以运行在廉价的
        阅读全文
            
        
                    
                
浙公网安备 33010602011771号