5.RDD操作综合实例

作业a
1. 准备文件
  1. 　　下载小说或长篇新闻稿
  2. 　　上传到hdfs上
2. 　　读文件创建RDD
  1. 　　分词　　
  2. 　　排除大小写lower()，map()
  3. 标点符号re.split(pattern,str)，flatMap(),
    停用词,可网盘下载stopwords.txt,filter()，
    1. 长度小于2的词filter()
  4. 　　　　统计词频
按词频排序