5.RDD操作综合实例

A.分步骤实现

1.准备文件

 

上传到hdfs上

 

 2.读文件创建RDD

 

 3.分词

 

 

  4.排除大小写lower(),map()

 

 标点符号re.split(pattern,str),flatMap(),
先导入re然后用re.split分词

 长度小于2的词filter()

 

  5.统计词频

 

 6.按词频排序

 

 7.输出到文件

 

  8.查看结果

 

  B.一句话实现

 

 

 

posted @ 2022-04-07 14:24  hetianming  阅读(31)  评论(0)    收藏  举报