做业五:RDD操作综合实例

一、词频统计

  A、步骤

  1. 准备文件:下载小说或是长篇新闻稿、上传到hdfs

   2.读文件创建RDD

  3.分词 

   4.排除大小写lower(),map()、标点符号re.split(pattern,str),flatMap()、停用词,可网盘下载stopwords.txt,filter()、长度小于2的词filter()

      排除大小写:

       标点符号:

       停用词,可网盘下载stopwords.txt,filter()

      长度小于2的词filter()

  5、词频统计

  6、按词频排序

  7、输出文件

  8、查看结果

  B、一句话实现:文件入文件出

  C、和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。

path='/home/hadoop/wc/f1.txt'
with open(path) as f:
text=f.read()
words = text.split()
wc={}
for word in words:
wc[word]=wc.get(word,0)+1
wclist=list(wc.items())
wclist.sort(key=lambda x:x[1],reverse=True)
print(wclist)

  python词频统计主要是读取文件、预处理,且是需要按照顺序来编写;spark词频统计是主要对分布式数据进行处理。

二、求TOP值

  下载payment.txt上传到hdfs

   拆分字段

  丢弃不合规范的行:

    1. 去除空行,少数据项

 

       2.去除缺少数据

 

  支付金额转换为数值型,按支付金额排序

 

  取出top3

 

posted @ 2022-04-07 21:36  ha_ha33  阅读(34)  评论(0)    收藏  举报