5.RDD操作综合实例

一、词频统计　　

A:分步骤实现　　

1.准备文件

下载小说或长篇新闻稿
上传到hdfs上

　　　　　　

　　　2.读文件创建RDD

　　　　　　

　　　3.分词

　　　　　　

　　　4.排除大小写lower()，map()

　　　　　　

　　　标点符号re.split(pattern,str)，flatMap()

　　　　　　

　　　停用词,可网盘下载stopwords.txt,filter()

　　　　　　

　　　　长度小于2的词filter()

　　　　　　

　　　　5.统计词频

　　　　　　

　　　　　　

　　　　　　6.按词频排序

　　　　　　　　

　　　　　　7.输出到文件

　　　　　　

　　　　　　8.查看结果

　　　　　　

　　　　　

B:一句话实现：文件入文件出

　　　　　　

　　　　　　

C. 和作业2的“二、Python编程练习：英文文本的词频统计 ”进行比较，理解并用自己话表达Spark编程的特点。

速度快：在Spark中，RDD允许用户显式地将工作集缓存在内存中，后续能够重用工作集，这极大地提升了速度。

RDD通过打开HDFS（或其他hadoop支持的文件系统）上的一个文件、在驱动程序中打开一个已有的Scala集合或由其他RDD转换操作得到。

使用简单、通用性强。

二、求Top值

　　　　　　 1.丢弃不合规范的行

　　　　　　

- 空行

　　　　　　

- 少数据项

　　　　　　

　　　　　　2.按支付金额排序

　　　　　　

　　　　　　3.取出Top3

　　　　　　

posted @ 2022-04-07 21:37 Eudemonia⁰ 阅读(35) 评论(0) 收藏举报

刷新页面返回顶部