Spark Core 核心概念:RDD 基础

知识点:
RDD 定义:弹性分布式数据集,不可变、分区存储、惰性求值
RDD 三大特性:分区、依赖、计算函数
RDD 的创建方式:从集合、本地文件、HDFS 文件创建

三种创建 RDD 的代码实现:

1. 从集合创建

rdd1 = spark.sparkContext.parallelize([1, 2, 3, 4, 5], numSlices=2)

2. 从本地文件创建

rdd2 = spark.sparkContext.textFile("file:///root/test.txt")

3. 从HDFS文件创建(需启动Hadoop)

rdd3 = spark.sparkContext.textFile("hdfs://localhost:9000/input/test.txt")
查看 RDD 分区数:print(rdd1.getNumPartitions())
易错:
惰性求值 ——RDD 转换算子(如 map)不会立即执行,行动算子(如 count)触发执行
parallelize的numSlices参数指定分区数,默认值为 CPU 核心数

posted @ 2026-01-18 00:29  再报错就堵桥0  阅读(4)  评论(0)    收藏  举报