做业五：RDD操作综合实例

一、词频统计

　　A、步骤

准备文件：下载小说或是长篇新闻稿、上传到hdfs

　　2.读文件创建RDD

　　3.分词

　　4.排除大小写lower()，map()、标点符号re.split(pattern,str)，flatMap()、停用词,可网盘下载stopwords.txt,filter()、长度小于2的词filter()

　　　　　　排除大小写：

　　　　　　标点符号：

　　　　　　停用词,可网盘下载stopwords.txt,filter()

　　　　　　长度小于2的词filter()

　　5、词频统计

　　6、按词频排序

　　7、输出文件

　　8、查看结果

　　B、一句话实现：文件入文件出

　　C、和作业2的“二、Python编程练习：英文文本的词频统计 ”进行比较，理解Spark编程的特点。

path='/home/hadoop/wc/f1.txt'
with open(path) as f:
text=f.read()
words = text.split()
wc={}
for word in words:
wc[word]=wc.get(word,0)+1
wclist=list(wc.items())
wclist.sort(key=lambda x:x[1],reverse=True)
print(wclist)

　　python词频统计主要是读取文件、预处理，且是需要按照顺序来编写；spark词频统计是主要对分布式数据进行处理。

二、求TOP值

　　下载payment.txt上传到hdfs

　　拆分字段

　　丢弃不合规范的行：

1. 去除空行，少数据项

　　　　　　2.去除缺少数据

　　支付金额转换为数值型，按支付金额排序

　　取出top3

posted @ 2022-04-07 21:36 ha_ha33 阅读(34) 评论(0) 收藏举报

刷新页面返回顶部

ha_ha33

做业五：RDD操作综合实例

公告