作业四:RDD操作
一、 RDD创建
1、启动pyspark

2、从本地文件系统中加载数据创建RDD
- 启动hdfs,上传到hdfs



- pyspark查看文件、加载

- 在hdfs中查看文件

- 停止hdfs

3、通过并行集合(列表)创建RDD
- 输入列表、字符串、numpy生成数组

二、 RDD操作
转换操作:
1.filter(func):显式定义函数、lambda函数

2.map(func):显式定义函数、lambda函数


3.flatMap(func):分词、单词映射成键值对


4.reduceByKey():统计词频,累加、乘法规则


5.groupByKey():单词分组、查看分组的内容、分组之后做累加 map

6.sortByKey():词频统计按单词排序

7.sortBy():词频统计按词频排序

8.RDD写入文本文件:写入本地文件系统,并查看结果,写入分布式文件系统,并查看结果
本地系统:




上传hdfs:


行动操作
reduce()和take()

count()


浙公网安备 33010602011771号