Spark SQL 基础:SQL 语法与临时视图
知识点:
临时视图:createOrReplaceTempView(会话级)、createGlobalTempView(全局级)
Spark SQL 执行:spark.sql()方法执行标准 SQL 语句
视图与表的区别:临时视图仅存在于当前 SparkSession,表持久化到元数据
用 SQL 实现词频统计:
df = spark.read.text("test.txt")
df.select(explode(split(df.value, " ")).alias("word")).createOrReplaceTempView("t_word")
执行SQL
sql_result = spark.sql("""
SELECT word, COUNT(*) AS count
FROM t_word
GROUP BY word
ORDER BY count DESC
""")
sql_result.show()
对比临时视图与全局临时视图的访问方式
易错:
全局临时视图需通过global_temp.视图名访问
Spark SQL 支持标准 SQL 语法,是大数据处理中与传统数据库交互的核心方式

浙公网安备 33010602011771号