RDD操作
一、 RDD创建
1.从本地文件系统中加载数据创建RDD

2. 从HDFS加载数据创建RDD
启动hdfs

上传文件

查看文件

加载

停止hdfs

1.通过并行集合(列表)创建RDD
输入列表
字符串
numpy生成数组

二、 RDD操作
转换操作
-
filter(func)
显式定义函数

lambda函

2.map(func)
a.字符串分词
显式定义函数

lambda函数

b.数字加100
显式定义函数

lambda函数

c.字符串加固定前缀
显式定义函数

3.flatMap(func)
a.分词

b.单词映射成键值对

4.reduceByKey()
a.统计词频,累加

b.乘法规则

.groupByKey()
a.单词分组

b.查看分组的内容

c.分组之后做累加 map

6.sortByKey()
词频统计按单词排序

7.sortBy()
词频统计按词频排序

行动操作
1.foreach(print)

foreach(lambda a:print(a.upper())

2.collect()

3.count()

4.take(n)

reduce()
数值型的rdd元素做累加


浙公网安备 33010602011771号