4.RDD操作

一、 RDD创建

1.从本地文件系统中加载数据创建RDD

 

 

 

 

2.从HDFS加载数据创建RDD

 

 

 

 

 

 

停止hdfs

 

 

3.通过并行集合(列表)创建RDD

 

 

 

二、 RDD操作

转换操作

1.filter(func)
  传入lambda匿名函数
  显式定义函数

 

 

 

 

2.map(func)
   显式定义函数
   lambda函数

1.字符串分词

 

 

2.数字加100

 

 

固定前缀

1.flatMap(func)

 

 

 

2.reduceByKey()

 

 

 

 

3.groupByKey()

单词分组

查看分组的内容

分组之后做累加 m

 

 

 

 

 

4.sortByKey()

词频统计按单词排序

 

 

 

 5.sortBy()

词频统计按词频排序

 

posted @ 2022-03-29 17:23  GU473  阅读(33)  评论(0)    收藏  举报