5.RDD操作综合实例
准备文件
下载小说或长篇新闻稿
http://www.kekenet.com/read/202203/653673.shtml
上传到hdfs上


读文件创建RDD

分词

排除大小写lower(),map()

标点符号re.split(pattern,str),flatMap(),


停用词,可网盘下载stopwords.txt,filter(),


过滤掉长度小于2的词filter()

统计词频


按词频排序

输出到文件


查看结果

一句话实现:文件入文件出


二、求Top值
网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。
假设一行代表某一个用户,每行第一个表示序号,用来代表用户,其他为支付额
读入文件
用逗号进行数据分割
进行键值对转换
进行排序
第八个用户支付额最高

浙公网安备 33010602011771号