5.RDD操作综合实例
一、词频统计
A:分步骤实现
1.准备文件
- 下载小说或长篇新闻稿
- 上传到hdfs上

2.读文件创建RDD

3.分词

4.排除大小写lower(),map()

标点符号re.split(pattern,str),flatMap()

停用词,可网盘下载stopwords.txt,filter()

长度小于2的词filter()

5.统计词频


6.按词频排序
7.输出到文件

8.查看结果


B:一句话实现:文件入文件出

C. 和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解并用自己话表达Spark编程的特点。
速度快:在Spark中,RDD允许用户显式地将工作集缓存在内存中,后续能够重用工作集,这极大地提升了速度。
RDD通过打开HDFS(或其他hadoop支持的文件系统)上的一个文件、在驱动程序中打开一个已有的Scala集合或由其他RDD转换操作得到。
使用简单、通用性强。
二、求Top值
1.丢弃不合规范的行

-
- 空行

-
- 少数据项

2.按支付金额排序

3.取出Top3

浙公网安备 33010602011771号