4.RDD操作

一、 RDD创建

1.从本地文件系统中加载数据创建RDD

  

 

2.从HDFS加载数据创建RDD

  


  2.1启动hdfs

  

  2.2上传文件

  2.3查看文件

  2.4加载

  2.5停止hdfs

  

  

 

3.通过并行集合(列表)创建RDD

  3.1输入列表

  3.2字符串

  3.3numpy生成数组

  

 

 

二、 RDD操作

1.转换操作

  1.1filter(func)
    显式定义函数
    lambda函数

    

  1.2map(func)
    显式定义函数
    lambda函数

  

  1 字符串分词

  

  2.数字加100  

  

   

  3字符串加固定前缀

  

 

   

  1.3flatmap(func)
    分词
    单词映射成键值对

  

 

  1.4reduceByKey()

    统计词频,

    累加乘法规则

  

 

  1.5 groupByKey()

    单词分组

    查看分组的内容

    分组之后做累加 map

  

 

  1.6sortByKey()

    词频统计按单词排序

  1.7sortBy()

    词频统计按词频排序

    查看分区数 getNumPartitions()

    生成不同分区数的rdd 

   

  

 

 

  1.8RDD写入文本文件

    写入本地文件系统,并查看结果

    写入分布式文件系统,并查看结果
    注意分区数与文件数的关系

  

  

  

  

 

 

 

2.行动操作

  2.1foreach(print)
    foreach(lambda a:print(a.upper())

  2.2collect()

  2.3count()

  2.4take(n)

  2.5reduce() 

    数值型的rdd元素做累加

    与reduceByKey区别

  

 

 

posted @ 2022-03-22 14:02  版田一giao  阅读(18)  评论(0编辑  收藏  举报