随笔分类 - Spark
Spark的相关学习笔记
摘要:Spark的dataframe提供了通用的聚合方法,比如count(),countDistinct(),avg(),max(),min()等等。然而这些函数是针对dataframe设计的,当然sparksql也有类型安全的版本,java和scala语言接口都有,这些就适用于强类型Datasets。本
阅读全文
摘要:1、spark都有哪些组件,每个组件的作用? 答:spark组件如下: 1)、master:管理集群和节点,不参与计算 2)、Driver:运行程序的main方法,创建spark context对象 3)、Worker:计算节点,进程本身不参与计算,向master汇报 4)、Executor:真正进
阅读全文
摘要:一、spark概述 1.1、定义 Spark是一种基于内存的快速、通用可扩展的的大数据分析引擎。 1.2、历史 1.3、spark特点 1)、运行速度快:与Hadoop的MR相比,Spark基于内存的运算要快100倍以上,基于硬盘的计算也快10倍以上。使用DAG(有向无环图)执行引擎以支持循环数据流
阅读全文