寒假第十一天

实验环境准备
- 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。
- 安装 MySQL 数据库，并配置 Spark 的 JDBC 连接支持。
- 准备实验数据文件 employee.json 和 employee.txt，并上传到 Linux 系统中。
Spark SQL 基本操作
- 启动 spark-shell，加载 employee.json 文件，创建 DataFrame。
- 使用 Spark SQL 完成以下操作：
  - 查询所有数据。
  - 查询所有数据并去除重复数据。
  - 查询所有数据并去除 id 字段。
  - 筛选出 age > 30 的记录。
  - 将数据按 age 分组。
  - 将数据按 name 升序排列。
  - 取出前 3 行数据。
  - 查询所有记录的 name 列，并为其取别名为 username。
  - 查询年龄 age 的平均值。
  - 查询年龄 age 的最小值。

我掌握了 Spark SQL 的基本操作，包括数据查询、去重、筛选、分组、排序、别名设置以及聚合操作（如平均值和最小值）。这些操作为后续的复杂数据处理任务奠定了基础。

posted @ 2025-02-01 10:50 连师傅只会helloword 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部