4.RDD操作
一、 RDD创建
- 从本地文件系统中加载数据创建RDD将本地文件TextOne.txt中的数据导入RDD中

2.从HDFS加载数据创建RDD
启动hdfs

上传文件

查看文件

加载

停止hdfs

- 通过并行集合(列表)创建RDD
输入列表
字符串
numpy生成数组

二、 RDD操作
1.转换操作
map(func)显式定义函数lambda函数

filter(func)
显式定义函数
lambda函数

2.行动操作
foreach(print)
foreach(lambda a:print(a.upper())

collect()

3.count()
4.take(n)
5.reduce()

7.sortBy()
1.词频统计按词频排序
2.查看分区数 getNumPartitions()
3.生成不同分区数的rdd


8.RDD写入文本文件
1.写入本地文件系统,并查看结果
2.写入分布式文件系统,并查看结果
注意分区数与文件数的关系


浙公网安备 33010602011771号