2025/2/8

Spark是一个高性能的分布式计算框架,支持内存计算,适合大规模数据处理和机器学习。本篇博客将介绍如何使用Spark进行数据处理。
Spark架构:Driver、Executor和Task的角色。
Spark操作:创建RDD、DataFrame和Dataset。
示例代码:

 

import org.apache.spark.sql.SparkSession

object SparkExample {
def main(args: Array[String]): Unit = {
// 创建SparkSession
val spark = SparkSession.builder
.appName("SparkExample")
.master("local[*]") // 使用本地模式运行
.getOrCreate()

import spark.implicits._

// 创建DataFrame
val data = Seq(("Alice", 25), ("Bob", 30), ("Charlie", 35))
val df = data.toDF("name", "age")

// 查询数据并显示
df.show()

// 使用SQL查询
df.createOrReplaceTempView("people")
val result = spark.sql("SELECT * FROM people WHERE age > 28")
result.show()

// 停止SparkSession
spark.stop()
}
}

 

运行步骤:
安装Spark并配置环境变量。
下载Spark:访问 Apache Spark官网。
解压并配置环境变量:

export SPARK_HOME=/path/to/spark
export PATH=$PATH:$SPARK_HOME/bin
将上述代码保存为SparkExample.scala。
使用SBT打包项目:

sbt package
运行程序:

spark-submit --class SparkExample target/scala-2.13/sparkexample_2.13-0.1.jar
观察输出结果。

Spark通过内存计算和高效的分布式处理,使得数据处理速度远超传统Hadoop MapReduce。DataFrame和Dataset API进一步简化了数据处理的复杂性。

posted @ 2025-02-08 23:52  伐木工熊大  阅读(18)  评论(0)    收藏  举报