1.16

今天学习了RDD的创建方式和基本操作。RDD可以通过并行化集合或读取外部文件创建。常见的操作包括map、filter和reduce。

代码示例:

python
复制
from pyspark import SparkContext

sc = SparkContext("local", "RDD Operations")

# 从集合创建RDD
data = sc.parallelize([1, 2, 3, 4, 5])

# 使用map转换数据
mapped_data = data.map(lambda x: x * 2)

# 使用filter过滤数据
filtered_data = mapped_data.filter(lambda x: x > 5)

# 使用reduce聚合数据
result = filtered_data.reduce(lambda x, y: x + y)

print("Result:", result)

sc.stop()
输出:

复制
Result: 18

posted @ 2025-01-16 21:47  混沌武士丞  阅读(12)  评论(0)    收藏  举报