Spark Core 核心概念:RDD 基础
知识点:
RDD 定义:弹性分布式数据集,不可变、分区存储、惰性求值
RDD 三大特性:分区、依赖、计算函数
RDD 的创建方式:从集合、本地文件、HDFS 文件创建
三种创建 RDD 的代码实现:
1. 从集合创建
rdd1 = spark.sparkContext.parallelize([1, 2, 3, 4, 5], numSlices=2)
2. 从本地文件创建
rdd2 = spark.sparkContext.textFile("file:///root/test.txt")
3. 从HDFS文件创建(需启动Hadoop)
rdd3 = spark.sparkContext.textFile("hdfs://localhost:9000/input/test.txt")
查看 RDD 分区数:print(rdd1.getNumPartitions())
易错:
惰性求值 ——RDD 转换算子(如 map)不会立即执行,行动算子(如 count)触发执行
parallelize的numSlices参数指定分区数,默认值为 CPU 核心数

浙公网安备 33010602011771号