作业5:RDD操作综合实例20

一、词频统计

A、分步骤实现

 1.准备文件

 

2.读文件创建RDD

 

3.分词

 

4.排除大小写lower(),map()
标点符号re.split(pattern,str),flatMap()

 

 

 排除大小写

 

停用词,可网盘下载stopwords.txt,filter()

 

 

 

长度小于2的词filter()

 

5.统计词频

 

6.按词频排序

 

7.输出到文件

 

 

 

 

8.查看结果

 

 

 

 

B、一句话实现:文件入文件出

 

C、与作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。

二、求Top值

网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。

1.丢弃不合规范的行:

  • 空行
  • 少数据项
  • 缺失数据 

 

 

 

 

 

 

 

2.按支付金额排序

 

 

 

3.取出top3 

 

 

posted @ 2022-04-06 08:23  tt理  阅读(50)  评论(0)    收藏  举报