1.准备文件
2.读文件创建RDD
3.分词
4.排除大小写
5.停用词,可网盘下载stopwords.txt,filter(),
长度小于2的词filter()
5.统计词频
6.按词频排序
7.输出并查看文件
二、求top值
(2)数据不完整行