5.RDD操作综合实例

一、词频统计

1.准备文件 文章地址:https://baijiahao.baidu.com/s?id=1590095643409783178&wfr=spider&for=pc

2.下载小说或长篇新闻稿

3.上传到hdfs上

 

 

 A.分步骤实现

 

 

  • 读文件创建RDD
  •  

     

  • 分词
  •  

     

  • 排除大小写,标点符号,停用词,长度小于2的词

     

     

     

     

     

     

  • 统计词频
  •  

     

  • 排序
  •  

     

  • 输出到文件
  • 查看结果

B.一句话实现

 

 

 

 

二、求Top值

网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。

 

 

 

 

  1. 丢弃不合规范的行:
    • 空行
    • 少数据项
    • 缺失数据                

       

       

       

       

       

       

       

       

       

  2. 按支付金额排序                      
  3. 取出Top3

            

 

posted @ 2022-03-24 15:39  liquorice  阅读(75)  评论(1)    收藏  举报