5.RDD操作综合实例

A.分步骤实现

1.准备文件

  下载小说或长篇新闻稿(从网上随便找一篇新闻)

 

 

  上传到hdfs上

 

 2.读文件创建RDD

3.分词

 

 4.排除大小写lower(),map()

 


标点符号re.split(pattern,str),flatMap()

停用词

 

 


长度小于2的词filter()

 

 5.统计词频

 

 6.按词频排序

7.输出到文件

 

 8.查看结果

 

 B.一句话实现

 

 

posted @ 2022-04-05 21:33  巢志红  阅读(14)  评论(0编辑  收藏  举报