RDD操作

一、 RDD创建

1.从本地文件系统中加载数据创建RDD

 

 

 

 2.从HDFS加载数据创建RDD

 

 启动hdfs 

 

 上传文件 

 

 

 查看文件

 

 加载

 

  停止hdfs

 

 3.通过并行集合(列表)创建RDD
   输入列表、字符串、生成数组

 

 

二、 RDD操作

转换操作

1.filter(func)
  传入lambda匿名函数
  显式定义函数

 

 

 

 

2.map(func)
   显式定义函数
   lambda函数

1.字符串分词

 

 

2.数字加100

 

 

 

固定前缀

1.flatMap(func)

 

 2.reduceByKey()

 

 

3.groupByKey()

单词分组

查看分组的内容

分组之后做累加 m

 

 

 

 

 

 

4.sortByKey()

词频统计按单词排序

 

 

5.sortBy()

词频统计按词频排序

 

posted @ 2022-03-27 19:35  王俊鹏  阅读(148)  评论(0)    收藏  举报