随笔分类 - spark学习笔记
摘要:Spark权威指南读书笔记(七) Spark生产与应用 一、Spark运行 Spark应用程序体系 Spark驱动器 Spark驱动器是控制你应用程序的进程。它负责控制整个Spark引用程序的执行并且维护Spark集群状态,即执行器任务和状态,它必须与集群管理器交互才能获得物理资源并启动执行器。他只
阅读全文
摘要:Spark权威指南读书笔记(六) RDD 与分布式共享变量 一、弹性分布式数据集 低级API分类 低级API有两种,一种用于处理分布式数据集, 一种用于分发或处理分布式共享变量(广播变量和累加器)。 何时使用低级API 高级API找不到所需功能 需要维护一些使用RDD编写的遗留代码库 需要执行一些自
阅读全文
摘要:Spark权威指南读书笔记(五) 数据源、 SparkSQL 与 Dataset 一、数据源 数据源API结构 Read API结构 DataFrameReader.format(...).option("key", "value").schema(...).load format可选,默认情况下S
阅读全文
摘要:Spark权威指南读书笔记(四) 聚合与连接 一、聚合函数 大多数聚合函数位于org.apache.spark.sql.functions。当给定多个输入值时,聚合函数给每个分组计算出一个结果。 count 使用count对指定列进行计数或者使用count(*)或count(1)对所有列进行计数。需
阅读全文
摘要:Spark权威指南读书笔记(三) 处理不同的数据类型 一、转换成Spark类型 使用lit函数将原始类型转换为Spark类型 二、处理布尔类型 布尔语句由四个要素组成: and、or、true和false。 scala中有一些关于 == 和 用法的特殊语义。在Spark中,如果想通过相等条件来进行过
阅读全文
摘要:Spark权威指南读书笔记(二) 结构化API 一、结构化API综述与简介 结构化API是处理各种数据类型的工具,可处理非结构化的日志文件,半结构化的CSV文件,以及高度结构化的Parquet文件。 通常而言,结构化API主要指以下三种核心分布式集合类型API: Dataset类型 DataFram
阅读全文
摘要:Spark权威指南读书笔记(一) 一、什么是Spark? 1.Spark设计哲学 统一平台 计算引擎(不考虑数据存储) 配套的软件库 二、Spark应用程序 spark应用程序由一个驱动器进程和一组执行器进程组成。 驱动器进程 负责运行main函数,主要负责三件事: 维护Spark应用程序的相关信息
阅读全文
浙公网安备 33010602011771号