5.RDD操作综合实例

    1. 作业a
      1. 准备文件
        1.   下载小说或长篇新闻稿
        2.   上传到hdfs上
      2.   读文件创建RDD
        1.   分词  
        2.   排除大小写lower(),map()
        3. 标点符号re.split(pattern,str),flatMap(),
          停用词,可网盘下载stopwords.txt,filter(),

          1. 长度小于2的词filter()
        4.     统计词频
    2. 按词频排序

  输出到文件

      1. 作业b
      2. 作业C
        1.   在spark中读取数据后数据是一条字符串/一行字符串视作一个linus,也叫做一个rdd对象(每个转换算子的操作都会形成新的rdd对象),spark中词频统计需要先用flatMap进行切分并压平,然后处理切分的字符串后形成新的键值对,再对形成的键值对进行词频的统计,然后再排序输出。而在python中,则没有压平等这类操作。而spark中有个特点就是在spark中有着区块数的概念,是多个任务同时进行,而python是按顺序进行的,所以spark主要是对分布式的数据进行处理,而python是对单数据进行处理。

二、求Top值

选出最大支付额的用户。

  1. 丢弃不合规范的行:
    • 空行
    • 少数据项
    • 缺失数据
    •  

       

  2. 支付金额转换为数值型,按支付金额排序
    1.  

       

        
  3. 取出Top3
    1.  

       

       

       
posted @ 2022-04-07 22:14  fdmlqy  阅读(33)  评论(0编辑  收藏  举报