寒假第八天
实验流程
-
实验环境准备
-
确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。
-
下载实验数据集
chapter5-data1.txt,并上传到 HDFS 或本地文件系统中。
-
-
spark-shell 交互式编程
-
启动
spark-shell,加载数据集chapter5-data1.txt,创建 RDD。 -
计算以下内容:
-
该系总共有多少学生:通过
map和distinct操作去重学生姓名,统计学生数量。 -
该系共开设了多少门课程:通过
map和distinct操作去重课程名称,统计课程数量。 -
Tom 同学的总成绩平均分:通过
filter筛选 Tom 的成绩,计算平均分。 -
每名同学的选修课程门数:通过
map和reduceByKey操作统计每名学生的选课数量。 -
DataBase 课程的选修人数:通过
filter筛选 DataBase 课程,统计选修人数。 -
各门课程的平均分:通过
map和reduceByKey操作计算每门课程的总分和人数,再求平均分。 -
使用累加器统计 DataBase 课程的选修人数。
-
-
实验结果
-
成功使用
spark-shell完成了对数据集的交互式编程,输出了以下结果:-
学生总数、课程总数、Tom 的平均分、每名学生的选课数量、DataBase 课程的选修人数、各门课程的平均分。
-
使用累加器验证了 DataBase 课程的选修人数。
-
实验总结
我熟悉了 Spark RDD 的基本操作,包括 map、filter、reduceByKey、distinct 等。通过实际数据集的操作,我掌握了如何使用 RDD 解决具体问题,例如统计学生数量、课程数量、平均分等。这些操作为后续的独立应用程序开发打下了基础。
浙公网安备 33010602011771号