5.RDD操作综合实例
一、词频统计
A.分步骤实现
1.准备文件读文件创建RDD
下载小说或长篇新闻稿
上传到hdfs上

 
 
2.分词文件传入

3.排除大小写,标点符号,停用词,长度小于2的词
排除标点符号:

大小写:

停用词:

 
长度小于2:

4.统计词频

5.排序

6.输出到文件

7.查看结果

B.一句话实现:文件入文件出

 
二、求Top值
原数据:

丢弃不合规范的行:
空行、少数据项

缺失数据

支付金额转换为数值型,按支付金额排序

取出Top3
 
下载小说或长篇新闻稿
上传到hdfs上

 
 

排除标点符号:

大小写:

停用词:

 
长度小于2:






 
原数据:




 