Spark SQL

什么是SQL

SQL（Structured Query Language，结构化查询语言）是一种用于管理和操作关系型数据库的标准化编程语言。它通过一系列的语句和命令来执行数据定义、数据查询、数据操作和数据控制等功能。

Spark SQL是什么

Spark SQL 是 Apache Spark 中专门用于结构化数据处理的核心模块，它让用户能够用 SQL 或 DataFrame API 高效地操作结构化/半结构化数据，并与 Spark 生态无缝集成。以下是它的核心解析：

1. 本质与定位

是什么：Spark SQL 是 Spark 生态的结构化数据处理引擎，融合了关系型数据库和 Spark 分布式计算的优点。
核心目标：
- 用 SQL 或类 SQL 方式处理大规模数据
- 统一批处理（Batch）和流处理（Streaming）的编程接口
- 与 Spark 其他组件（如 MLlib、GraphX）深度集成

2. 核心特性

（1）多种编程接口

接口类型	描述
SQL	直接执行标准 ANSI SQL 或 HiveQL 查询
DataFrame	以列式结构组织的分布式数据集，支持 Python/Java/Scala/R 语言
Dataset	类型安全的 DataFrame（仅 Scala/Java 支持）

// 示例：用SQL查询
spark.sql("SELECT name, age FROM users WHERE age > 20").show()

// 示例：用DataFrame API
df.select("name", "age").filter($"age" > 20).show()

（2）统一数据源访问

支持读写多种数据源，格式自动推断：

文件系统：JSON、Parquet、CSV、ORC
数据库：Hive、MySQL、PostgreSQL（通过 JDBC）
大数据存储：HDFS、S3、HBase

val df = spark.read
  .format("parquet")  // 或 "json", "jdbc" 等
  .load("/path/to/data")

（3）优化引擎（Catalyst & Tungsten）

Catalyst 优化器：
- 逻辑优化（如谓词下推、列剪枝）
- 物理优化（选择最优执行计划）
Tungsten 引擎：
- 堆外内存管理
- 代码生成（减少 CPU 开销）

3. 为什么用 Spark SQL？

场景	传统 Spark RDD	Spark SQL
结构化数据处理	需手动编码	内置优化，开发效率高
SQL兼容性	不支持	完整 SQL 支持
性能	依赖用户优化	自动优化（快10-100倍）
与其他组件集成	需转换数据	直接共享 DataFrame

4. 典型应用场景

数据仓库 ETL

# 从Hive表读取，转换后写入Parquet
df = spark.sql("SELECT * FROM hive_table")
df.write.parquet("/output/path")

交互式分析

-- 直接执行复杂分析SQL
SELECT department, AVG(salary) 
FROM employees 
GROUP BY department;

机器学习数据准备

val cleanData = spark.sql("""
  SELECT features, label 
  FROM raw_data 
  WHERE label IS NOT NULL
""")

实时数据处理（Structured Streaming）

val streamingDF = spark.readStream
  .schema(schema)
  .json("s3://logs/")

5. 架构图解

graph TB subgraph Spark生态 SparkSQL --> RDD SparkSQL --> MLlib SparkSQL --> GraphX end SparkSQL -->|SQL/API| 数据源(HDFS,Hive,JDBC...) SparkSQL --> Catalyst优化器 Catalyst优化器 --> Tungsten执行引擎

6. 性能对比（示例）

操作	Hive（磁盘）	Spark SQL（内存）
10GB 数据聚合	120s	8s
多表 JOIN	300s	25s

总结来说，Spark SQL 是 Spark 生态中处理结构化数据的首选工具，通过 SQL 兼容性、自动化优化和统一的 API，显著提升了开发效率和执行性能。无论是批处理、流处理还是机器学习，它都能提供简洁高效的解决方案。

Spark SQL怎么把RDD变成表

在 Spark SQL 中，可以通过 createDataFrame() 或 toDF() 方法将 RDD 转换为 DataFrame（表），然后注册为临时视图进行 SQL 查询。以下是详细步骤和示例：

1. 基本步骤

将 RDD 转换为 DataFrame (就像一张表)
- 如果 RDD 的元素是 Row 对象，直接用 SparkSession.createDataFrame()。
- 如果 RDD 的元素是 普通对象（如元组、样例类），用 toDF()（需隐式转换支持）。
注册为临时表
使用 createOrReplaceTempView() 注册为临时视图，即可用 SQL 查询。

2. 示例代码

① 从 RDD[Row] 创建表（推荐）

import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types._

// 创建 SparkSession
val spark = SparkSession.builder().appName("RDDToTable").master("local[*]").getOrCreate()

// 示例 RDD（元素为 Row）
val rdd = spark.sparkContext.parallelize(Seq(
  Row("Alice", 25),
  Row("Bob", 30)
))

// 定义 Schema (表头)
val schema = StructType(Seq(
  StructField("name", StringType, nullable = false),
  StructField("age", IntegerType, nullable = false)
))

// 将 RDD[Row] 转为 DataFrame
val df = spark.createDataFrame(rdd, schema)

// 注册为临时表
df.createOrReplaceTempView("people")

//上面表做好了，下面可以查了

// 执行 SQL 查询
spark.sql("SELECT * FROM people WHERE age > 26").show()

输出：

+----+---+
|name|age|
+----+---+
| Bob| 30|
+----+---+

② 从 RDD[元组] 或 RDD[样例类] 创建表

import spark.implicits._  // 启用隐式转换

// 样例类（推荐）
case class Person(name: String, age: Int)

// 示例 RDD（元素为元组或样例类）
val rdd = spark.sparkContext.parallelize(Seq(
  ("Alice", 25),
  ("Bob", 30)
)

// 转为 DataFrame（隐式转换）
val df = rdd.toDF("name", "age")  // 直接指定列名

// 或使用样例类
val dfCaseClass = rdd.map(t => Person(t._1, t._2)).toDF()

// 注册为临时表
df.createOrReplaceTempView("people")

// 执行 SQL
spark.sql("SELECT name FROM people").show()

3. 注意事项

隐式转换依赖
- 使用 toDF() 前需导入 import spark.implicits._（spark 是 SparkSession 实例）。
性能优化
- 如果 RDD 的 Schema 已知，优先通过 Row + 显式 StructType 创建 DataFrame，避免反射推断开销。
临时表作用域
- createOrReplaceTempView() 注册的表仅在当前 SparkSession 有效，跨 Session 需使用 createGlobalTempView()。
复杂数据类型
- 如果 RDD 包含嵌套结构（如数组、Map），需在 Schema 中正确定义 ArrayType、MapType。

4. 完整流程图示

graph LR RDD -->|Row + Schema| createDataFrame --> DataFrame RDD -->|元组/样例类| toDF --> DataFrame DataFrame --> createOrReplaceTempView --> SQL查询

5. 从文件直接生成表（替代方案）

如果数据源是文件（如 JSON、CSV），可直接读取为 DataFrame，无需手动转换 RDD：

val df = spark.read.json("path/to/file.json")
df.createOrReplaceTempView("table")

通过上述方法，你可以灵活地将 RDD 转换为 Spark SQL 表，并利用 SQL 进行高效分析！

posted @ 2025-06-08 14:39 快乐星猫i 阅读(50) 评论(0) 收藏举报

刷新页面返回顶部

tongtonglove

Spark SQL

Spark SQL

什么是SQL

Spark SQL是什么

1. 本质与定位

2. 核心特性

（1）多种编程接口

（2）统一数据源访问

（3）优化引擎（Catalyst & Tungsten）

3. 为什么用 Spark SQL？

4. 典型应用场景

5. 架构图解

6. 性能对比（示例）

Spark SQL怎么把RDD变成表

1. 基本步骤

2. 示例代码

① 从 RDD[Row] 创建表（推荐）

② 从 RDD[元组] 或 RDD[样例类] 创建表

3. 注意事项

4. 完整流程图示

5. 从文件直接生成表（替代方案）

公告