一、词频统计
准备文件,上传到hdfs上
读文件创建RDD
分词
排除大小写,标点符号
统计词频
排序
输出到文件
查看结果
B.一句话实现
C. 和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。
二、求Top值
网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。