寒假第十一天

实验流程

  1. 实验环境准备

    • 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。

    • 安装 MySQL 数据库,并配置 Spark 的 JDBC 连接支持。

    • 准备实验数据文件 employee.json 和 employee.txt,并上传到 Linux 系统中。

  2. Spark SQL 基本操作

    • 启动 spark-shell,加载 employee.json 文件,创建 DataFrame。

    • 使用 Spark SQL 完成以下操作:

      • 查询所有数据。

      • 查询所有数据并去除重复数据。

      • 查询所有数据并去除 id 字段。

      • 筛选出 age > 30 的记录。

      • 将数据按 age 分组。

      • 将数据按 name 升序排列。

      • 取出前 3 行数据。

      • 查询所有记录的 name 列,并为其取别名为 username

      • 查询年龄 age 的平均值。

      • 查询年龄 age 的最小值。

实验结果

  • 成功加载 employee.json 文件并创建 DataFrame。

  • 完成了所有 Spark SQL 基本操作,输出了符合预期的结果。

实验总结

我掌握了 Spark SQL 的基本操作,包括数据查询、去重、筛选、分组、排序、别名设置以及聚合操作(如平均值和最小值)。这些操作为后续的复杂数据处理任务奠定了基础。

posted @ 2025-02-01 10:50  连师傅只会helloword  阅读(7)  评论(0)    收藏  举报