1.14

Day 1: 初识Spark
今天开始学习Spark,了解了Spark的基本概念和架构。Spark是一个分布式计算框架,核心是RDD(弹性分布式数据集)。与Hadoop MapReduce相比,Spark的优势在于内存计算和更丰富的API。
我搭建了Spark的本地环境,并运行了第一个简单的Spark程序,使用SparkContext初始化Spark应用。

代码示例:

python
复制
from pyspark import SparkContext

# 初始化SparkContext
sc = SparkContext("local", "FirstApp")

# 创建一个RDD
data = sc.parallelize([1, 2, 3, 4, 5])

# 执行一个简单的转换操作
result = data.map(lambda x: x * 2).collect()

print("Result:", result)

# 关闭SparkContext
sc.stop()
输出:

复制
Result: [2, 4, 6, 8, 10]

posted @ 2025-01-14 22:31  混沌武士丞  阅读(15)  评论(0)    收藏  举报