5.RDD操作综合实例

一、词频统计  

A:分步骤实现   

1.准备文件

  1. 下载小说或长篇新闻稿
  2. 上传到hdfs上

      

   2.读文件创建RDD

      

   3.分词

      

   4.排除大小写lower(),map()

      

 

   标点符号re.split(pattern,str),flatMap()

      

    停用词,可网盘下载stopwords.txt,filter()

      

    长度小于2的词filter()

      

 

 

     5.统计词频

      

       

       6.按词频排序

        

      7.输出到文件

      

      8.查看结果

      

        

B:一句话实现:文件入文件出

        

       

 

C. 和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解并用自己话表达Spark编程的特点。

速度快:在Spark中,RDD允许用户显式地将工作集缓存在内存中,后续能够重用工作集,这极大地提升了速度。

RDD通过打开HDFS(或其他hadoop支持的文件系统)上的一个文件、在驱动程序中打开一个已有的Scala集合或由其他RDD转换操作得到。

使用简单、通用性强。

 

 二、求Top值

       1.丢弃不合规范的行

      

    • 空行

       

    • 少数据项

       

 

 

 

      2.按支付金额排序

       

 

 

       3.取出Top3

      

 

posted @ 2022-04-07 21:37  Eudemonia⁰  阅读(35)  评论(0)    收藏  举报