1.26

第6天:Spark基础
学习目标:了解Spark架构和RDD基本操作。
具体内容:

Spark概述,Spark与Hadoop对比,Spark组件。

使用PySpark,创建SparkSession。

RDD的创建(从集合、从文件),转换操作(map、filter、flatMap)和行动操作(collect、count、reduce)。

练习:使用PySpark创建一个RDD(从1到10的数字),计算平方,并筛选出偶数。

任务:

在本地模式下运行Spark,完成上述练习。

尝试从文本文件创建RDD,并统计行数。

posted @ 2026-01-26 18:18  为啥不懂就问  阅读(4)  评论(0)    收藏  举报