上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 14 下一页
摘要: 一、Spark SQL简介 Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。它具有以下特点: 能够将 SQL 查询与 Spark 程序无缝混合,允许您使用 SQL 或 DataFrame API 对结构化数据进行查询; 支持多种开发语言; 支持多达上百种的外部数据源,包括 阅读全文
posted @ 2020-06-26 10:54 数据驱动 阅读(874) 评论(0) 推荐(0) 编辑
摘要: 一、集群规划 这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务,Master 服务由 Zooke 阅读全文
posted @ 2020-06-26 10:20 数据驱动 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 一、简介 在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable): 累加器:用来对信息进行聚合,主要用于累计计数等场景; 广播变量:主要用于在节点间高效分发大对象。 二、累加器 这里先看一个具体的场景,对于正常的累计求和 阅读全文
posted @ 2020-06-26 09:56 数据驱动 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 阅读全文
posted @ 2020-06-26 09:10 数据驱动 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 一、Transformation spark 常用的 Transformation 算子如下表: Transformation 算子 Meaning(含义) map(func) 对原 RDD 中每个元素运用 func 函数,并生成新的 RDD filter(func) 对原 RDD 中每个元素使用f 阅读全文
posted @ 2020-06-26 00:00 数据驱动 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 一、RDD简介 RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partitions)组成。对于 R 阅读全文
posted @ 2020-06-25 20:52 数据驱动 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 一、安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 阅读全文
posted @ 2020-06-25 19:57 数据驱动 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 一、简介 Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduce 之后,最 阅读全文
posted @ 2020-06-25 19:21 数据驱动 阅读(596) 评论(0) 推荐(0) 编辑
摘要: 一、Kafka集群 Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识 broker.id,用于标识自己在集群中的身份,可以在配置文件 server.properties 中进行配置,或者由程序自动生成。下面是 Kafka brok 阅读全文
posted @ 2020-06-24 19:17 数据驱动 阅读(1004) 评论(0) 推荐(0) 编辑
摘要: 一、消费者和消费者群组 在 Kafka 中,消费者通常是消费者群组的一部分,多个消费者群组共同读取同一个主题时,彼此之间互不影响。Kafka 之所以要引入消费者群组这个概念是因为 Kafka 消费者经常会做一些高延迟的操作,比如把数据写到数据库或 HDFS ,或者进行耗时的计算,在这些情况下,单个消 阅读全文
posted @ 2020-06-24 18:04 数据驱动 阅读(757) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 14 下一页