作业四:RDD操作

一、 RDD创建

1、启动pyspark

 

2、从本地文件系统中加载数据创建RDD

  • 启动hdfs,上传到hdfs

  • pyspark查看文件、加载

 

  •  在hdfs中查看文件

  • 停止hdfs

3、通过并行集合(列表)创建RDD

  • 输入列表、字符串、numpy生成数组

二、 RDD操作

转换操作:

  1.filter(func):显式定义函数、lambda函数

 

  2.map(func):显式定义函数、lambda函数

   3.flatMap(func):分词、单词映射成键值对

  4.reduceByKey():统计词频,累加、乘法规则

  5.groupByKey():单词分组、查看分组的内容、分组之后做累加 map

  6.sortByKey():词频统计按单词排序

  7.sortBy():词频统计按词频排序

  8.RDD写入文本文件:写入本地文件系统,并查看结果,写入分布式文件系统,并查看结果

      本地系统:

 

 

 

      上传hdfs:

 

 

 

  行动操作

  reduce()和take()

  count()

 

posted @ 2022-03-15 23:08  ha_ha33  阅读(145)  评论(0)    收藏  举报