上一页 1 2 3 4 5 6 7 8 9 10 ··· 14 下一页
摘要:一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo 阅读全文
posted @ 2020-06-26 17:22 数据驱动 阅读(1137) 评论(0) 推荐(0) 编辑
摘要:一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注:以下所有测试文件均可从 阅读全文
posted @ 2020-06-26 16:52 数据驱动 阅读(370) 评论(0) 推荐(0) 编辑
摘要:一、创建DataFrame和Dataset 1.1 创建DataFrame Spark 中所有功能的入口点是 SparkSession,可以使用 SparkSession.builder() 创建。创建后应用程序就可以从现有 RDD,Hive 表或 Spark 数据源创建 DataFrame。示例如 阅读全文
posted @ 2020-06-26 15:43 数据驱动 阅读(177) 评论(0) 推荐(0) 编辑
摘要:一、Spark SQL简介 Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。它具有以下特点: 能够将 SQL 查询与 Spark 程序无缝混合,允许您使用 SQL 或 DataFrame API 对结构化数据进行查询; 支持多种开发语言; 支持多达上百种的外部数据源,包括 阅读全文
posted @ 2020-06-26 10:54 数据驱动 阅读(448) 评论(0) 推荐(0) 编辑
摘要:一、集群规划 这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务,Master 服务由 Zooke 阅读全文
posted @ 2020-06-26 10:20 数据驱动 阅读(184) 评论(0) 推荐(0) 编辑
摘要:一、简介 在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable): 累加器:用来对信息进行聚合,主要用于累计计数等场景; 广播变量:主要用于在节点间高效分发大对象。 二、累加器 这里先看一个具体的场景,对于正常的累计求和 阅读全文
posted @ 2020-06-26 09:56 数据驱动 阅读(144) 评论(0) 推荐(0) 编辑
摘要:一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 阅读全文
posted @ 2020-06-26 09:10 数据驱动 阅读(172) 评论(0) 推荐(0) 编辑
摘要:一、Transformation spark 常用的 Transformation 算子如下表: Transformation 算子 Meaning(含义) map(func) 对原 RDD 中每个元素运用 func 函数,并生成新的 RDD filter(func) 对原 RDD 中每个元素使用f 阅读全文
posted @ 2020-06-26 00:00 数据驱动 阅读(140) 评论(0) 推荐(0) 编辑
摘要:一、RDD简介 RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partitions)组成。对于 R 阅读全文
posted @ 2020-06-25 20:52 数据驱动 阅读(195) 评论(0) 推荐(0) 编辑
摘要:一、安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 阅读全文
posted @ 2020-06-25 19:57 数据驱动 阅读(232) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 14 下一页