寒假第二天

实验环境准备
- 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。
- 安装 MySQL 数据库，并配置 Spark 的 JDBC 连接支持。
- 准备实验数据文件 employee.json 和 employee.txt，并上传到 Linux 系统中。
Spark SQL 基本操作
- 启动 spark-shell，加载 employee.json 文件，创建 DataFrame。
- 使用 Spark SQL 完成以下操作：
  - 查询所有数据。
  - 查询所有数据并去除重复数据。
  - 查询所有数据并去除 id 字段。
  - 筛选出 age > 30 的记录。
  - 将数据按 age 分组。
  - 将数据按 name 升序排列。
  - 取出前 3 行数据。
  - 查询所有记录的 name 列，并为其取别名为 username。
  - 查询年龄 age 的平均值。
  - 查询年龄 age 的最小值。

posted @ 2025-02-16 17:36 欧吼吼阅读(6) 评论(0) 收藏举报

刷新页面返回顶部