2025.1.25(寒假第十八天)

Spark SQL 基本操作
学习记录:
学习实验题目中的“Spark SQL 基本操作”部分。
将 JSON 数据保存为 employee.json 文件,并加载到 Spark SQL 中。

// 创建 SparkSession
val spark = SparkSession.builder()
.appName("Spark SQL Basic Operations")
.master("local[*]")
.getOrCreate()

// 读取 JSON 文件
val employeeDF = spark.read.json("file:///path/to/employee.json")

// (1) 查询所有数据
employeeDF.show()

// (2) 查询所有数据,并去除重复的数据
employeeDF.dropDuplicates().show()

// (3) 查询所有数据,打印时去除 id 字段
employeeDF.select("name", "age").show()

// (4) 筛选出 age > 30 的记录
employeeDF.filter("age > 30").show()

// (5) 将数据按 age 分组
employeeDF.groupBy("age").count().show()

// (6) 将数据按 name 升序排列
employeeDF.orderBy("name").show()

// (7) 取出前 3 行数据
employeeDF.limit(3).show()

// (8) 查询所有记录的 name 列,并为其取别名为 username
employeeDF.select($"name".alias("username")).show()

// (9) 查询年龄 age 的平均值
employeeDF.select(avg("age")).show()

// (10) 查询年龄 age 的最小值
employeeDF.select(min("age")).show()

// 停止 SparkSession
spark.stop()
实验总结:
掌握 Spark SQL 的基本操作,包括查询、过滤、排序、分组和聚合函数。
理解如何通过 DataFrame 操作数据。

posted @ 2025-01-25 09:25  kuku睡  阅读(10)  评论(0)    收藏  举报