1.16
今天学习了RDD的创建方式和基本操作。RDD可以通过并行化集合或读取外部文件创建。常见的操作包括map、filter和reduce。
代码示例:
python
复制
from pyspark import SparkContext
sc = SparkContext("local", "RDD Operations")
# 从集合创建RDD
data = sc.parallelize([1, 2, 3, 4, 5])
# 使用map转换数据
mapped_data = data.map(lambda x: x * 2)
# 使用filter过滤数据
filtered_data = mapped_data.filter(lambda x: x > 5)
# 使用reduce聚合数据
result = filtered_data.reduce(lambda x, y: x + y)
print("Result:", result)
sc.stop()
输出:
复制
Result: 18