第5篇: 键值对操作

键值对RDD(pair RDD)是常见的数据类型

用于聚合计算

一般先通过初始的ETL(抽取,转化、装载)操作来将数据转化为键值对形式。

 

pair RDD的创建

        键值对就是我们常见的字典类型的数据

        如果数据格式本身就是键值对,在读取时直接返回由其键值对数据组成的pair RDD。

        如果将一个普通的RDD转为pair RDD,可以调用map()实现,传递的函数需要返回键值对。

例子:

 

 pair RDD的转换操作(转化操作)

 例子:以键值对集合rdd={(1,2),(3,4),(3,6)}为例

 采用reduceByKey()和mapValues()计算每个键对应值的均值

 采用combineByKey()计算每个键对应值的均值

 例子:针对2个pair RDD的转化操作    rdd={(1,2),(3,4),(3,6)}, other={(3,9)}

 聚合操作

     当数据集以键的形式组织起来的时候,聚合具有相同键的元素进行集合及是常见的操作。

 

pair RDD的行动操作

 

posted @ 2020-02-29 22:47  lililili——  阅读(320)  评论(0)    收藏  举报