Hadoop复习(4) Spark

Spark 与 MapReduce 的主要区别


Spark 特点

什么是 RDD(重点)






创建RDD


RDD map


flatMap(func)

filter(func)

distinct([numPartitions])

groupByKey ()

和Mapreduce的归并操作一致

reduceByKey ()

join()

查看数据的几个函数

其他函数


分区的目的、自定义分区的方法有哪些


自定义分区方法

Stage 阶段划分



Spark 架构


查找

从本地文件系统读取/home/hadoop/wordData目录下的文件,在spark-shell中编程查找所有文件包含“Hadoop”的行,并把结果输出到界面。

val textFile = sc .textFile("file:///home/hadoop/wordData")
val search = textFile.filter(line => line.contains("Hadoop"))
search.foreach(x => println(x))

去重

在spark-shell中编程实现:读取/home/hadoop/sparkData3目录下两个文件A和B,然后对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。

val textFile = sc.textFile("file:///home/hadoop/sparkData3")
val distinct = textFile.distinct()
distinct.foreach(x => println(x))
distinct.repartition(1).saveAsTextFile("file:///home/hadoop/sparkData3_out")

课程成绩分析





posted @ 2021-07-01 15:12  一个经常掉线的人  阅读(110)  评论(0)    收藏  举报