spark学习笔记 - 随笔分类 - ganshuoos

Spark权威指南读书笔记（七） Spark生产与应用

摘要：Spark权威指南读书笔记（七） Spark生产与应用一、Spark运行 Spark应用程序体系 Spark驱动器 Spark驱动器是控制你应用程序的进程。它负责控制整个Spark引用程序的执行并且维护Spark集群状态，即执行器任务和状态，它必须与集群管理器交互才能获得物理资源并启动执行器。他只阅读全文

posted @ 2020-09-21 00:07 ganshuoos 阅读(487) 评论(0) 推荐(0)

Spark权威指南读书笔记（六） RDD 与分布式共享变量

摘要：Spark权威指南读书笔记（六） RDD 与分布式共享变量一、弹性分布式数据集低级API分类低级API有两种，一种用于处理分布式数据集，一种用于分发或处理分布式共享变量（广播变量和累加器）。何时使用低级API 高级API找不到所需功能需要维护一些使用RDD编写的遗留代码库需要执行一些自阅读全文

posted @ 2020-09-07 22:40 ganshuoos 阅读(257) 评论(0) 推荐(0)

Spark权威指南读书笔记（五）数据源、 SparkSQL 与 Dataset

摘要：Spark权威指南读书笔记（五）数据源、 SparkSQL 与 Dataset 一、数据源数据源API结构 Read API结构 DataFrameReader.format(...).option("key", "value").schema(...).load format可选，默认情况下S 阅读全文

posted @ 2020-08-28 00:48 ganshuoos 阅读(1148) 评论(0) 推荐(0)

Spark权威指南读书笔记（四）聚合与连接

摘要：Spark权威指南读书笔记（四）聚合与连接一、聚合函数大多数聚合函数位于org.apache.spark.sql.functions。当给定多个输入值时，聚合函数给每个分组计算出一个结果。 count 使用count对指定列进行计数或者使用count(*)或count(1)对所有列进行计数。需阅读全文

posted @ 2020-08-19 01:06 ganshuoos 阅读(652) 评论(0) 推荐(0)

Spark权威指南读书笔记（三）处理不同的数据类型

摘要：Spark权威指南读书笔记（三）处理不同的数据类型一、转换成Spark类型使用lit函数将原始类型转换为Spark类型二、处理布尔类型布尔语句由四个要素组成： and、or、true和false。 scala中有一些关于 == 和用法的特殊语义。在Spark中，如果想通过相等条件来进行过阅读全文

posted @ 2020-08-12 18:12 ganshuoos 阅读(1319) 评论(0) 推荐(0)

Spark权威指南读书笔记（二）结构化API

摘要：Spark权威指南读书笔记（二）结构化API 一、结构化API综述与简介结构化API是处理各种数据类型的工具，可处理非结构化的日志文件，半结构化的CSV文件，以及高度结构化的Parquet文件。通常而言，结构化API主要指以下三种核心分布式集合类型API： Dataset类型 DataFram 阅读全文

posted @ 2020-08-07 00:51 ganshuoos 阅读(388) 评论(0) 推荐(0)

Spark权威指南读书笔记（一）

摘要：Spark权威指南读书笔记（一）一、什么是Spark？ 1.Spark设计哲学统一平台计算引擎（不考虑数据存储）配套的软件库二、Spark应用程序 spark应用程序由一个驱动器进程和一组执行器进程组成。驱动器进程负责运行main函数，主要负责三件事：维护Spark应用程序的相关信息阅读全文

posted @ 2020-07-28 01:28 ganshuoos 阅读(376) 评论(0) 推荐(0)

ganshuoos

随笔分类 - spark学习笔记

公告