一、 RDD创建

1.从本地文件系统中加载数据创建RDD

 

2.从HDFS加载数据创建RDD

 

 加载

 停止hdfs

 3.通过并行集合(列表)创建RDD

    输入列表、字符串、生成数组

二、 RDD操作

转换操作

1. filter(func)
传入lambda匿名函数
显式定义函数

2.map(func)
  显式定义函数
  lambda函数

字符串分词

数字加100

客串加固定前缀

 

3.flatMap(func)

分词

单词映射成键值对

 

4.reduceByKey() 

统计词频,累加

乘法规则

 

 

5.groupByKey()

单词分组

查看分组的内容

分组之后做累加 m

 

 

6.sortByKey()

词频统计按单词排序

7.sortBy()

词频统计按词频排序

 posted on 2022-03-29 19:09  烟落blog  阅读(23)  评论(0)    收藏  举报