1..19

学习了键值对RDD的操作，如groupByKey、reduceByKey和sortByKey。键值对RDD是Spark中处理分组和聚合的常用数据结构。

代码示例：

python
复制
from pyspark import SparkContext

sc = SparkContext("local", "Pair RDD")

data = sc.parallelize([("a", 1), ("b", 2), ("a", 3), ("b", 4)])

# 使用reduceByKey聚合
result = data.reduceByKey(lambda x, y: x + y).collect()

print("Result:", result)

sc.stop()
输出：

复制
Result: [('a', 4), ('b', 6)]

posted @ 2025-01-19 23:20 混沌武士丞阅读(8) 评论(0) 收藏举报

刷新页面返回顶部