4.RDD操作
一、 RDD创建
1、从本地文件系统中加载数据创建RDD
创建RDD
从HDFS加载数据创建RDD
启动hdfs

上传文件

查看文件

加载

停止hdfs

2、通过并行集合(列表)创建RDD
输入列表


字符串

numpy生成数组

二、 RDD操作
转换操作
- map(func)
显式定义函数
lambda函数

- filter(func)
显式定义函数
lambda函数

1.字符串分词

2.数字加100

3.字符串加固定前缀

3.flatMap(func)
1.分词

2.单词映射成键值对

4.reduceByKey()
1.统计词频,累加

2.乘法规则

5. groupByKey()
1.单词分组

2.查看分组的内容

3.分组之后做累加 map

6.sortByKey()
1.词频统计按单词排序


7.sortBy()
1.词频统计按词频排序

2.查看分区数 getNumPartitions()

3.生成不同分区数的rdd


8.RDD写入文本文件
1.写入本地文件系统,并查看结果



2.写入分布式文件系统,并查看结果




行动操作
- foreach(print)
foreach(lambda a:print(a.upper())

2.collect()

3.count()

4. first()

5.take(n)

6.reduce()

数值型的rdd元素做累加
与reduceByKey区别
1.作用对象不一样
reduceByKey:作用在kv 类型rdd上。transformation算子,reduceByKey针对有key的,reduceByKey的转换算子。
reduce: 作用在数值类型RDD上,action算子,reduce针对集合是单个元素的,reduce是行动算子。

浙公网安备 33010602011771号