2025/2/8

Spark是一个高性能的分布式计算框架，支持内存计算，适合大规模数据处理和机器学习。本篇博客将介绍如何使用Spark进行数据处理。
Spark架构：Driver、Executor和Task的角色。
Spark操作：创建RDD、DataFrame和Dataset。
示例代码：

import org.apache.spark.sql.SparkSession

object SparkExample {
def main(args: Array[String]): Unit = {
// 创建SparkSession
val spark = SparkSession.builder
.appName("SparkExample")
.master("local[*]") // 使用本地模式运行
.getOrCreate()

import spark.implicits._

// 创建DataFrame
val data = Seq(("Alice", 25), ("Bob", 30), ("Charlie", 35))
val df = data.toDF("name", "age")

// 查询数据并显示
df.show()

// 使用SQL查询
df.createOrReplaceTempView("people")
val result = spark.sql("SELECT * FROM people WHERE age > 28")
result.show()

// 停止SparkSession
spark.stop()
}
}

运行步骤：
安装Spark并配置环境变量。
下载Spark：访问 Apache Spark官网。
解压并配置环境变量：

export SPARK_HOME=/path/to/spark
export PATH=$PATH:$SPARK_HOME/bin
将上述代码保存为SparkExample.scala。
使用SBT打包项目：

sbt package
运行程序：

spark-submit --class SparkExample target/scala-2.13/sparkexample_2.13-0.1.jar
观察输出结果。

Spark通过内存计算和高效的分布式处理，使得数据处理速度远超传统Hadoop MapReduce。DataFrame和Dataset API进一步简化了数据处理的复杂性。

posted @ 2025-02-08 23:52 伐木工熊大阅读(18) 评论(0) 收藏举报

刷新页面返回顶部

zhenaifen

2025/2/8

公告