学习进度 1

今天简单了解了spark，核心目标是完成Spark的安装配置，并对它有个初步的认识和简单使用。作为大数据领域的核心框架，早就听说Spark的强大，真上手操作才发现，看似复杂的步骤，一步步梳理清楚后其实也很有条理。
第一步先检查本地的JDK是否安装成功。打开命令行输入java -version，幸运的是之前学习hadoop时已经配置过JDK 1.8，版本也符合Spark的要求，这一步省了不少事。如果没安装的话，得先去Oracle官网下载对应版本的JDK，再配置环境变量。
接下来是下载Spark安装包。我去Spark的官方网站（https://spark.apache.org/）找最新的稳定版本，考虑到兼容性，选择了Spark 3.5.0，对应的Hadoop版本是3.3及以上。下载的是预编译好的压缩包，不用自己编译，对新手很友好。
下载完成后，把压缩包解压到指定目录。用解压命令tar -zxvf spark-3.5.0-bin-hadoop3.tgz -C /D/Spark完成解压。
然后是配置环境变量。在系统环境变量里新建了SPARK_HOME，值为解压后的路径配置完成后，打开新的命令行，输入spark-shell测试是否配置成功。这里遇到了一个小问题：命令输入后提示“找不到spark-shell命令”，排查了半天发现是环境变量配置后没重启命令行，重启后再输入，终于成功进入了Spark Shell的交互界面。
然后开始初步了解Spark的核心概念和简单使用。首先查资料知道了Spark是一个快速、通用的大数据处理引擎，相比Hadoop的MapReduce，它的计算速度更快，因为它支持将数据缓存在内存中反复使用。核心数据结构是RDD（弹性分布式数据集），可以理解为分布式的集合，支持多种操作。
在Spark Shell中做了几个简单的测试。首先创建一个简单的RDD，输入val rdd = sc.parallelize(List(1,2,3,4,5))，这里sc是SparkContext的实例，是Spark程序的入口。然后用count()方法统计元素个数，输入rdd.count()，返回结果5，成功执行。接着试了filter过滤操作，rdd.filter(_>3).collect()，返回Array(4,5)，这让我对RDD的操作有了直观的认识。
还了解了Spark的基本架构，包括Driver（驱动程序）、Cluster Manager（集群管理器）和Executor（执行器）。Driver负责编写程序和提交任务，Executor负责在集群节点上执行任务，Cluster Manager负责资源的分配和管理。

posted @ 2026-01-15 18:05 一如初见233 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

lzq233

学习进度 1

公告