寒假第十天

实验流程

  1. 编写独立应用程序实现求平均值问题

    • 创建 Scala 项目,配置 sbt 构建工具。

    • 编写 Spark 独立应用程序,读取多个输入文件(Algorithm、Database、Python 成绩),创建 RDD。

    • 使用 map 操作将每行数据转换为 (学生姓名, 成绩) 的键值对。

    • 使用 reduceByKey 操作计算每名学生的总分和科目数。

    • 计算每名学生的平均成绩,并将结果保存到新文件中。

    • 使用 spark-submit 提交应用程序,验证输出文件的内容是否正确。

  2. 测试求平均值程序

    • 准备输入文件,内容如下:

      • Algorithm 成绩:

         

      • Database 成绩:

         

         

        Python 成绩:
      •  

    • 运行程序,生成输出文件,验证内容是否符合预期。

实验结果

  • 成功编写并运行了求平均值的 Spark 独立应用程序。

  • 输出文件的内容如下:

     

  • 验证了程序的正确性,平均成绩计算结果符合预期。

实验总结

我掌握了如何使用 Spark 独立应用程序处理多个输入文件,并计算每名学生的平均成绩。通过 map 和 reduceByKey 操作,我成功实现了对数据的聚合和计算。此外,我还学会了如何将计算结果保存到文件中,并通过 spark-submit 提交应用程序。这些实验不仅提高了我的编程能力,也加深了我对 Spark RDD 编程的理解,为后续的复杂数据处理任务打下了坚实的基础。

posted @ 2025-01-31 17:51  连师傅只会helloword  阅读(9)  评论(0)    收藏  举报