1月11日

RDD：分布式的数据集

Rdd是spark中最基本的抽象，它代表的是一个只读的不能被改变的被分区的数据集。

在spark中存在很多的方法，这些方法都可以进行操作rdd，而这些方法就叫做算子。

特点：

只读：一旦创建，不能被修改，因为RDD是一个抽象。

不可变：一旦创建，不能被修改，只能生成新的RDD.

弹性：可变大变小，默认优先使用内存，如果超大的话借助磁盘。

分布式：其实就是分区的概念，并行处理执行的，--逻辑一样，但是数据不一样。

数据集：一系列数据放在集合中的表示。

高容错性：通过RDD中的血缘关系，也就是上一个RDD和下一个RDD之间通过算子的相互

依赖关系。

集合并行化的创建方式：

val a=Array(11,22,33)

sc.makeRDD(a)  //or: sc.parallelize(a)

makeRDD底层调用的就是parallelize(collection集合并行化)

调用转换类算子会生成新的rdd，而调用行动类算子不会生成新的rdd，行动类算子只能是执行。

读取外部文件的形式：

sc.textFile("hdfs://hadoop102/sanguo/shuguo.txt")

调用转换类算子创建 transformations [通过算子产生RDD，会产生各种类型的RDD]

posted @ 2022-01-11 22:01 不咬牙阅读(110) 评论(0) 收藏举报

刷新页面返回顶部