【梦溪笔谈】6.spark-sql相关代码
摘要:import os import sys #import datetime import pyspark.sql.functions as F from pyspark.sql.types import * from pyspark.sql import SparkSession #不启动Broad
阅读全文
【spark】1.算子原理
摘要:1.union 特点: ①、新的RDD,会将旧的两个RDD的partition原封不动的给挪过来。 ② 、新的RDD的partition数量,是旧的partition数量之和。 2.groupByKey ①、一般来说,在执行groupByKey、reduceByKey、join等shuffle算子时
阅读全文
【spark】2.内核原理
摘要:1 spark内核架构 过程如下: 首先: ①、用户通过spark-submit提交自己编写的程序(jar、py)。 ②、一般认为上述的提交方式为Standlone,其会通过反射的方式,创建和构造一个DriverActor进程出来。 ③、Driver执行我们的Application应用程序(我们编写
阅读全文