Spark框架（开发模式）— 快速上手 — WordCount实例

写在前面

　　开发所需工具：Intellij Idea

　　开发使用语言：Scala

具体步骤

　　1.创建 Maven 项目

　　2.增加 Scala 插件

　　　　Spark 由 Scala 语言开发，本人使用 Spark 版本为 3.0.0，默认采用的 Scala 编译版本为 2.12。开发前请保证 IDEA 开发工具中含有 Scala 开发插件。

　　3.增加依赖关系

　　　　修改 Maven 项目中的 POM 文件，增加 Spark 框架的依赖关系。基于 Spark3.0 版本，使用时请注意对应版本。

　　　　　　　　<groupId>org.apache.spark</groupId>

　　　　　　　　<artifactId>spark-core_2.12</artifactId>

　　　　　　</dependency>

　　　　</dependencies>

　　4.创建WordCount.scala文件

　　// 创建 Spark 运行配置对象

　　val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")

　　// 创建 Spark 上下文环境对象（连接对象）

　　val sc : SparkContext = new SparkContext(sparkConf)

　　// 读取文件数据

　　val fileRDD: RDD[String] = sc.textFile("input/word.txt")

　　// 将文件中的数据进行分词

　　val wordRDD: RDD[String] = fileRDD.flatMap( _.split(" ") )

　　// 转换数据结构 word => (word, 1)

　　val word2OneRDD: RDD[(String, Int)] = wordRDD.map((_,1))

　　// 将转换结构后的数据按照相同的单词进行分组聚合

　　val word2CountRDD: RDD[(String, Int)] = word2OneRDD.reduceByKey(_+_)

　　// 将数据聚合结果采集到内存中

　　val word2Count: Array[(String, Int)] = word2CountRDD.collect()

　　// 打印结果

　　word2Count.foreach(println)

　　//关闭 Spark 连接

　　sc.stop()

posted @ 2021-12-24 11:38 IQcarry 阅读(108) 评论(0) 收藏举报

刷新页面返回顶部

IQcarry