1..19

学习了键值对RDD的操作,如groupByKey、reduceByKey和sortByKey。键值对RDD是Spark中处理分组和聚合的常用数据结构。

代码示例:

python
复制
from pyspark import SparkContext

sc = SparkContext("local", "Pair RDD")

data = sc.parallelize([("a", 1), ("b", 2), ("a", 3), ("b", 4)])

# 使用reduceByKey聚合
result = data.reduceByKey(lambda x, y: x + y).collect()

print("Result:", result)

sc.stop()
输出:

复制
Result: [('a', 4), ('b', 6)]

posted @ 2025-01-19 23:20  混沌武士丞  阅读(8)  评论(0)    收藏  举报