1..19
学习了键值对RDD的操作,如groupByKey、reduceByKey和sortByKey。键值对RDD是Spark中处理分组和聚合的常用数据结构。
代码示例:
python
复制
from pyspark import SparkContext
sc = SparkContext("local", "Pair RDD")
data = sc.parallelize([("a", 1), ("b", 2), ("a", 3), ("b", 4)])
# 使用reduceByKey聚合
result = data.reduceByKey(lambda x, y: x + y).collect()
print("Result:", result)
sc.stop()
输出:
复制
Result: [('a', 4), ('b', 6)]