寒假第十一天
实验流程
-
实验环境准备
-
确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。
-
安装 MySQL 数据库,并配置 Spark 的 JDBC 连接支持。
-
准备实验数据文件
employee.json和employee.txt,并上传到 Linux 系统中。
-
-
Spark SQL 基本操作
-
启动
spark-shell,加载employee.json文件,创建 DataFrame。 -
使用 Spark SQL 完成以下操作:
-
查询所有数据。
-
查询所有数据并去除重复数据。
-
查询所有数据并去除
id字段。 -
筛选出
age > 30的记录。 -
将数据按
age分组。 -
将数据按
name升序排列。 -
取出前 3 行数据。
-
查询所有记录的
name列,并为其取别名为username。 -
查询年龄
age的平均值。 -
查询年龄
age的最小值。
-
-
实验结果
-
成功加载
employee.json文件并创建 DataFrame。 -
完成了所有 Spark SQL 基本操作,输出了符合预期的结果。
实验总结
我掌握了 Spark SQL 的基本操作,包括数据查询、去重、筛选、分组、排序、别名设置以及聚合操作(如平均值和最小值)。这些操作为后续的复杂数据处理任务奠定了基础。
浙公网安备 33010602011771号