摘要: HBase快速入门 HBase快速入门 一、基本概念 Apache HBase(Hadoop DataBase)是一个开源的、高可靠性、高性能、面向列(这里指列族,非列式存储)、可伸缩、实时读写的分 布式数据库,其设计思想来源于 Google 的 BigTable 论文。利用 Hadoop HDFS 作为其文件存储系统 阅读全文
posted @ 2023-11-20 16:19 戴莫先生Study平台 阅读(440) 评论(0) 推荐(0)
摘要: Spark Core快速入门 Spark-core快速入门 一、简介 Apache spark是专门为大规模数据处理而设计的快速通用的计算模型,是一种类似于Mapreduce通用并行计算框架,与mapreduce不同的是,spark中间输出数据可以缓存在内存中,不需要读取HDFS,减少磁盘数据交互,spark也被称为基于内存的分 阅读全文
posted @ 2023-11-20 10:29 戴莫先生Study平台 阅读(361) 评论(0) 推荐(0)
摘要: Spark SQL快速入门 Spark SQL快速入门 1、概述 spark SQL是Apache用于处理结构化数据的模块。其中包含SQL、DataFrame API、DataSet API,意味着开发人员可以在不同的API之间来回切换,从而使数据处理更加灵活。 Spark SQL(Spark on hive) 数据兼容方面S 阅读全文
posted @ 2023-11-20 10:27 戴莫先生Study平台 阅读(507) 评论(0) 推荐(1)
摘要: Spark Streaming快速入门 Spark Streaming快速入门 一、简介 Spark Streaming 是构建在 Spark Core 基础之上的流处理框架(但实际上是微批次处理框架),是 Spark 非常重要的组成部分。严格意义上来讲,Spark Streaming 是一个准实时,微批次的流处理框架。 特点:Easy 阅读全文
posted @ 2023-11-20 10:26 戴莫先生Study平台 阅读(169) 评论(0) 推荐(0)