4.RDD操作

一、 RDD创建

  1. 从本地文件系统中加载数据创建RDD将本地文件TextOne.txt中的数据导入RDD中

          

   2.从HDFS加载数据创建RDD

   启动hdfs

   
   上传文件

   
   查看文件

           
   加载

           
   停止hdfs

           

  1. 通过并行集合(列表)创建RDD
    输入列表
    字符串
    numpy生成数组

   

二、 RDD操作

  1.转换操作

   map(func)显式定义函数lambda函数

   

   filter(func)
   显式定义函数
   lambda函数

   

 

   2.行动操作

   foreach(print)
   foreach(lambda a:print(a.upper())

       

   collect()

   

   3.count()

   4.take(n)

   5.reduce() 

  

   7.sortBy()

    1.词频统计按词频排序

    2.查看分区数 getNumPartitions()

    3.生成不同分区数的rdd

      

 

 

      

 

 

 

  8.RDD写入文本文件

    1.写入本地文件系统,并查看结果

    2.写入分布式文件系统,并查看结果
    注意分区数与文件数的关系

  

    

 

posted on 2022-03-21 21:50  why、小王  阅读(97)  评论(0)    收藏  举报

导航