1月11日
RDD:分布式的数据集
Rdd是spark中最基本的抽象,它代表的是一个只读的不能被改变的被分区的数据集。
在spark中存在很多的方法,这些方法都可以进行操作rdd,而这些方法就叫做算子。
特点:
只读:一旦创建,不能被修改,因为RDD是一个抽象。
不可变:一旦创建,不能被修改,只能生成新的RDD.
弹性:可变大变小,默认优先使用内存,如果超大的话借助磁盘。
分布式:其实就是分区的概念,并行处理执行的,--逻辑一样,但是数据不一样。
数据集:一系列数据放在集合中的表示。
高容错性:通过RDD中的血缘关系,也就是上一个RDD和下一个RDD之间通过算子的相互
依赖关系。
集合并行化的创建方式:
val a=Array(11,22,33)
sc.makeRDD(a) //or: sc.parallelize(a)
makeRDD底层调用的就是parallelize(collection集合并行化)
调用转换类算子会生成新的rdd,而调用行动类算子不会生成新的rdd,行动类算子只能是执行。
读取外部文件的形式:
sc.textFile("hdfs://hadoop102/sanguo/shuguo.txt")
调用转换类算子创建 transformations [通过算子产生RDD,会产生各种类型的RDD]
浙公网安备 33010602011771号