5.RDD操作综合实例
一、词频统计
A.分步骤实现
1.准备文件
(1)下载小说或长篇新闻稿

(2)上传到hdfs上

2.读文件创建RDD

3.分词

4.排除大小写lower(),map()
标点符号re.split(pattern,str),flatMap(),
停用词,长度小于2的词filter()



5.统计词频

6.按词频排序

7.输出到文件

8.查看结果

B.一句话实现:文件入文件出

C.和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。
二、求Top值
拆分字段

丢弃空行于字段不完整的行

丢弃有空值的行

有效的记录

记录按支付金额排序

取前三名


浙公网安备 33010602011771号