第5篇: 键值对操作
键值对RDD(pair RDD)是常见的数据类型
用于聚合计算
一般先通过初始的ETL(抽取,转化、装载)操作来将数据转化为键值对形式。
pair RDD的创建
键值对就是我们常见的字典类型的数据
如果数据格式本身就是键值对,在读取时直接返回由其键值对数据组成的pair RDD。
如果将一个普通的RDD转为pair RDD,可以调用map()实现,传递的函数需要返回键值对。
例子:
pair RDD的转换操作(转化操作)
例子:以键值对集合rdd={(1,2),(3,4),(3,6)}为例
采用reduceByKey()和mapValues()计算每个键对应值的均值
例子:针对2个pair RDD的转化操作 rdd={(1,2),(3,4),(3,6)}, other={(3,9)}
聚合操作
当数据集以键的形式组织起来的时候,聚合具有相同键的元素进行集合及是常见的操作。
pair RDD的行动操作