4.RDD操作

一、 RDD创建

1.从本地文件系统中加载数据创建RDD

 

2.从HDFS加载数据创建RDD

 

 3.通过并行集合(列表)创建RDD

 二、 RDD操作

1.转换操作

(1)filter(func)  lambda函数

显式定义函数

 (2)map(func)  显式定义函数 lambda函数

例1:

例2:

 

字符串加固定前缀

 3.flatMap(func)

a.分词

 b.单词映射成键值对

 4.reduceByKey()

(1)统计词频,累加

(2)乘法规则

 5.groupByKey()

(1)单词分组

(2)查看分组的内容

(3)分组之后做累加 map

6.sortByKey()

(1)词频统计按单词排序

7.sortBy()

(1)词频统计按词频排序

(2)获得分区值

8.RDD写入文本文件

(1)写入本地文件系统,并查看结果

 

(2)写入分布式文件系统,并查看结果

三.行动操作

1.(1)foreach(print)

(2)foreach(lambda a:print(a.upper()))

2.collect()

3.count()

4.take(n)

5.reduce() 

posted @ 2022-03-18 17:08  lokxlok  阅读(21)  评论(0编辑  收藏  举报