Spark Core 核心概念：RDD 基础

知识点：
RDD 定义：弹性分布式数据集，不可变、分区存储、惰性求值
RDD 三大特性：分区、依赖、计算函数
RDD 的创建方式：从集合、本地文件、HDFS 文件创建

三种创建 RDD 的代码实现：

1. 从集合创建

rdd1 = spark.sparkContext.parallelize([1, 2, 3, 4, 5], numSlices=2)

2. 从本地文件创建

rdd2 = spark.sparkContext.textFile("file:///root/test.txt")

3. 从HDFS文件创建（需启动Hadoop）

rdd3 = spark.sparkContext.textFile("hdfs://localhost:9000/input/test.txt")
查看 RDD 分区数：print(rdd1.getNumPartitions())
易错：
惰性求值 ——RDD 转换算子（如 map）不会立即执行，行动算子（如 count）触发执行
parallelize的numSlices参数指定分区数，默认值为 CPU 核心数

posted @ 2026-01-18 00:29 再报错就堵桥0 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

WMKQF

Spark Core 核心概念：RDD 基础

1. 从集合创建

2. 从本地文件创建

3. 从HDFS文件创建（需启动Hadoop）

公告