第五次作业

1.准备文件

 

 

  1. 上传到hdfs上      

     

     2.读文件创建RDD

     

     

     3.分词

     

     4.排除大小写

     

     5.停用词,可网盘下载stopwords.txt,filter(),

     

     长度小于2的词filter()

     

     

     5.统计词频

     

     6.按词频排序

     

     

     

     7.输出并查看文件

     

     二、求top值

    1.丢弃不合规范的行: 
    (1)空行

     

     (2)数据不完整行

     

     

    2.支付金额转换为数值型,按支付金额排序

     

     

    3.取出Top3

     

     

posted @ 2022-04-07 16:26  Menway  阅读(11)  评论(0)    收藏  举报