1月11日

RDD:分布式的数据集

Rdd是spark中最基本的抽象,它代表的是一个只读的不能被改变的被分区的数据集。

在spark中存在很多的方法,这些方法都可以进行操作rdd,而这些方法就叫做算子。

特点:

只读:一旦创建,不能被修改,因为RDD是一个抽象。

不可变:一旦创建,不能被修改,只能生成新的RDD.

弹性:可变大变小,默认优先使用内存,如果超大的话借助磁盘。

分布式:其实就是分区的概念,并行处理执行的,--逻辑一样,但是数据不一样。

数据集:一系列数据放在集合中的表示。

高容错性:通过RDD中的血缘关系,也就是上一个RDD和下一个RDD之间通过算子的相互

依赖关系。

 

集合并行化的创建方式:

val a=Array(11,22,33)
sc.makeRDD(a)  //or: sc.parallelize(a)
 
makeRDD底层调用的就是parallelize(collection集合并行化)
 


调用转换类算子会生成新的rdd,而调用行动类算子不会生成新的rdd,行动类算子只能是执行。

 

读取外部文件的形式:


sc.textFile("hdfs://hadoop102/sanguo/shuguo.txt")

 

 

调用转换类算子创建 transformations [通过算子产生RDD,会产生各种类型的RDD]

 

posted @ 2022-01-11 22:01  不咬牙  阅读(110)  评论(0)    收藏  举报