4.RDD操作
一、 RDD创建
1.从本地文件系统中加载数据创建RDD


2.从HDFS加载数据创建RDD



3.通过并行集合(列表)创建RDD

二、 RDD操作
1.转换操作
(1)filter(func) lambda函数

显式定义函数

(2)map(func) 显式定义函数 lambda函数
例1:

例2:


字符串加固定前缀

3.flatMap(func)
a.分词

b.单词映射成键值对

4.reduceByKey()
(1)统计词频,累加

(2)乘法规则

5.groupByKey()
(1)单词分组

(2)查看分组的内容

(3)分组之后做累加 map

6.sortByKey()
(1)词频统计按单词排序

7.sortBy()
(1)词频统计按词频排序

(2)获得分区值

8.RDD写入文本文件
(1)写入本地文件系统,并查看结果


(2)写入分布式文件系统,并查看结果


三.行动操作
1.(1)foreach(print)

(2)foreach(lambda a:print(a.upper()))

2.collect()

3.count()

4.take(n)

5.reduce()


浙公网安备 33010602011771号