Spark----shell操作
Spark-shell进行词频统计
1.将README.md文件上传至hdfs上:
hadoop fs -put README.md /
2.进入shell编辑界面
spark-shell
①:val textFile = sc.textFile("/README.md")
②: textFile.first()
查看文件中的第一条数据
③:textFile.count()
统计文件中 的单词总数
④: val wordcount = textFile.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)
扁平化操作将分割开的单词和1构成元组
⑤:wordcount.collect()
遍历list中的每一个元组
⑥: wordcount.foreach(println)
输出