5、RDD操作综合实例

一、词频统计

 

  1. 准备文件,上传到hdfs上

     

     

    读文件创建RDD

     

     

    分词

     

     

    排除大小写,标点符号

     

     

    统计词频

     

     

    排序

     

    输出到文件

     

    查看结果

     

     

    B.一句话实现

     

     

     

C. 和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。

 

二、求Top值

网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。

  1. 丢弃不合规范的行:
    • 空行
    • 少数据项
    • 缺失数据
  2. 按支付金额排序
  3. 取出Top3

 

posted on 2022-04-12 13:40  czczczcz  阅读(46)  评论(0)    收藏  举报