1.14

Day 1: 初识Spark
今天开始学习Spark，了解了Spark的基本概念和架构。Spark是一个分布式计算框架，核心是RDD（弹性分布式数据集）。与Hadoop MapReduce相比，Spark的优势在于内存计算和更丰富的API。
我搭建了Spark的本地环境，并运行了第一个简单的Spark程序，使用SparkContext初始化Spark应用。

代码示例：

python
复制
from pyspark import SparkContext

# 初始化SparkContext
sc = SparkContext("local", "FirstApp")

# 创建一个RDD
data = sc.parallelize([1, 2, 3, 4, 5])

# 执行一个简单的转换操作
result = data.map(lambda x: x * 2).collect()

print("Result:", result)

# 关闭SparkContext
sc.stop()
输出：

复制
Result: [2, 4, 6, 8, 10]

posted @ 2025-01-14 22:31 混沌武士丞阅读(15) 评论(0) 收藏举报

刷新页面返回顶部

1.14

公告