学习进度 1
今天简单了解了spark,核心目标是完成Spark的安装配置,并对它有个初步的认识和简单使用。作为大数据领域的核心框架,早就听说Spark的强大,真上手操作才发现,看似复杂的步骤,一步步梳理清楚后其实也很有条理。
第一步先检查本地的JDK是否安装成功。打开命令行输入java -version,幸运的是之前学习hadoop时已经配置过JDK 1.8,版本也符合Spark的要求,这一步省了不少事。如果没安装的话,得先去Oracle官网下载对应版本的JDK,再配置环境变量。
接下来是下载Spark安装包。我去Spark的官方网站(https://spark.apache.org/)找最新的稳定版本,考虑到兼容性,选择了Spark 3.5.0,对应的Hadoop版本是3.3及以上。下载的是预编译好的压缩包,不用自己编译,对新手很友好。
下载完成后,把压缩包解压到指定目录。用解压命令tar -zxvf spark-3.5.0-bin-hadoop3.tgz -C /D/Spark完成解压。
然后是配置环境变量。在系统环境变量里新建了SPARK_HOME,值为解压后的路径配置完成后,打开新的命令行,输入spark-shell测试是否配置成功。这里遇到了一个小问题:命令输入后提示“找不到spark-shell命令”,排查了半天发现是环境变量配置后没重启命令行,重启后再输入,终于成功进入了Spark Shell的交互界面。
然后开始初步了解Spark的核心概念和简单使用。首先查资料知道了Spark是一个快速、通用的大数据处理引擎,相比Hadoop的MapReduce,它的计算速度更快,因为它支持将数据缓存在内存中反复使用。核心数据结构是RDD(弹性分布式数据集),可以理解为分布式的集合,支持多种操作。
在Spark Shell中做了几个简单的测试。首先创建一个简单的RDD,输入val rdd = sc.parallelize(List(1,2,3,4,5)),这里sc是SparkContext的实例,是Spark程序的入口。然后用count()方法统计元素个数,输入rdd.count(),返回结果5,成功执行。接着试了filter过滤操作,rdd.filter(_>3).collect(),返回Array(4,5),这让我对RDD的操作有了直观的认识。
还了解了Spark的基本架构,包括Driver(驱动程序)、Cluster Manager(集群管理器)和Executor(执行器)。Driver负责编写程序和提交任务,Executor负责在集群节点上执行任务,Cluster Manager负责资源的分配和管理。

浙公网安备 33010602011771号