寒假第八天

实验环境准备
- 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。
- 下载实验数据集 chapter5-data1.txt，并上传到 HDFS 或本地文件系统中。
spark-shell 交互式编程
- 启动 spark-shell，加载数据集 chapter5-data1.txt，创建 RDD。
- 计算以下内容：
  - 该系总共有多少学生：通过 map 和 distinct 操作去重学生姓名，统计学生数量。
  - 该系共开设了多少门课程：通过 map 和 distinct 操作去重课程名称，统计课程数量。
  - Tom 同学的总成绩平均分：通过 filter 筛选 Tom 的成绩，计算平均分。
  - 每名同学的选修课程门数：通过 map 和 reduceByKey 操作统计每名学生的选课数量。
  - DataBase 课程的选修人数：通过 filter 筛选 DataBase 课程，统计选修人数。
  - 各门课程的平均分：通过 map 和 reduceByKey 操作计算每门课程的总分和人数，再求平均分。
  - 使用累加器统计 DataBase 课程的选修人数。

成功使用 spark-shell 完成了对数据集的交互式编程，输出了以下结果：
- 学生总数、课程总数、Tom 的平均分、每名学生的选课数量、DataBase 课程的选修人数、各门课程的平均分。
- 使用累加器验证了 DataBase 课程的选修人数。

我熟悉了 Spark RDD 的基本操作，包括 map、filter、reduceByKey、distinct 等。通过实际数据集的操作，我掌握了如何使用 RDD 解决具体问题，例如统计学生数量、课程数量、平均分等。这些操作为后续的独立应用程序开发打下了基础。

posted @ 2025-01-29 14:38 连师傅只会helloword 阅读(15) 评论(0) 收藏举报

刷新页面返回顶部