寒假第二天

实验流程

  1. 实验环境准备

    • 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。

    • 安装 MySQL 数据库,并配置 Spark 的 JDBC 连接支持。

    • 准备实验数据文件 employee.json 和 employee.txt,并上传到 Linux 系统中。

  2. Spark SQL 基本操作

    • 启动 spark-shell,加载 employee.json 文件,创建 DataFrame。

    • 使用 Spark SQL 完成以下操作:

      • 查询所有数据。

      • 查询所有数据并去除重复数据。

      • 查询所有数据并去除 id 字段。

      • 筛选出 age > 30 的记录。

      • 将数据按 age 分组。

      • 将数据按 name 升序排列。

      • 取出前 3 行数据。

      • 查询所有记录的 name 列,并为其取别名为 username

      • 查询年龄 age 的平均值。

      • 查询年龄 age 的最小值。

实验结果

  • 成功加载 employee.json 文件并创建 DataFrame。

  • 完成了所有 Spark SQL 基本操作,输出了符合预期的结果。

posted @ 2025-02-16 17:36  欧吼吼  阅读(6)  评论(0)    收藏  举报