5.RDD操作综合实例

一、词频统计

A.分步骤实现

1.准备文件
(1)下载小说或长篇新闻稿
image

(2)上传到hdfs上
image

2.读文件创建RDD
image

3.分词
image

4.排除大小写lower(),map()
标点符号re.split(pattern,str),flatMap(),
停用词,长度小于2的词filter()
image

image

image

5.统计词频
image

6.按词频排序
image

7.输出到文件
image

8.查看结果
image

B.一句话实现:文件入文件出

image

C.和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。

二、求Top值

拆分字段
image
丢弃空行于字段不完整的行
image
丢弃有空值的行
image
有效的记录
image

记录按支付金额排序
image

取前三名
image

posted @ 2022-04-04 21:14  湘伦籽  阅读(26)  评论(0)    收藏  举报