寒假第八天

实验流程

  1. 实验环境准备

    • 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。

    • 下载实验数据集 chapter5-data1.txt,并上传到 HDFS 或本地文件系统中。

  2. spark-shell 交互式编程

    • 启动 spark-shell,加载数据集 chapter5-data1.txt,创建 RDD。

    • 计算以下内容:

      • 该系总共有多少学生:通过 map 和 distinct 操作去重学生姓名,统计学生数量。

      • 该系共开设了多少门课程:通过 map 和 distinct 操作去重课程名称,统计课程数量。

      • Tom 同学的总成绩平均分:通过 filter 筛选 Tom 的成绩,计算平均分。

      • 每名同学的选修课程门数:通过 map 和 reduceByKey 操作统计每名学生的选课数量。

      • DataBase 课程的选修人数:通过 filter 筛选 DataBase 课程,统计选修人数。

      • 各门课程的平均分:通过 map 和 reduceByKey 操作计算每门课程的总分和人数,再求平均分。

      • 使用累加器统计 DataBase 课程的选修人数。

实验结果

  • 成功使用 spark-shell 完成了对数据集的交互式编程,输出了以下结果:

    • 学生总数、课程总数、Tom 的平均分、每名学生的选课数量、DataBase 课程的选修人数、各门课程的平均分。

    • 使用累加器验证了 DataBase 课程的选修人数。

实验总结

我熟悉了 Spark RDD 的基本操作,包括 mapfilterreduceByKeydistinct 等。通过实际数据集的操作,我掌握了如何使用 RDD 解决具体问题,例如统计学生数量、课程数量、平均分等。这些操作为后续的独立应用程序开发打下了基础。

posted @ 2025-01-29 14:38  连师傅只会helloword  阅读(11)  评论(0)    收藏  举报