1.26
第6天:Spark基础
学习目标:了解Spark架构和RDD基本操作。
具体内容:
Spark概述,Spark与Hadoop对比,Spark组件。
使用PySpark,创建SparkSession。
RDD的创建(从集合、从文件),转换操作(map、filter、flatMap)和行动操作(collect、count、reduce)。
练习:使用PySpark创建一个RDD(从1到10的数字),计算平方,并筛选出偶数。
任务:
在本地模式下运行Spark,完成上述练习。
尝试从文本文件创建RDD,并统计行数。

浙公网安备 33010602011771号