4.RDD操作

一、 RDD创建

1、从本地文件系统中加载数据创建RDD

 

 

2、从HDFS加载数据创建RDD

  启动hdfs

 

 

 

 

 

 

  上传文件

 

 

 

 

  查看文件

 

 

 

 

  加载

 

 

 

  停止hdfs

 

 

 

3、通过并行集合(列表)创建RDD

  输入列表

 

 

 

 

 

 

 

  字符串

 

 

  numpy生成数组

  若没有装numpy库,需先执行以下命令再继续操作

sudo apt install python3-pip
pip install numpy
pip install nose

 

 

二、 RDD操作

  转换操作

  1、map(func)

  显式定义函数

  lambda函数

 

 

  2、filter(func)

  显式定义函数

  lambda函数

 

 

行动操作

  1、foreach(print)

    foreach(lambda a:print(a.upper())

 

  2、collect()

  

posted @ 2022-03-21 23:33  苏广龙201906120111  阅读(24)  评论(0)    收藏  举报