寒假学习进度14

Spark初级编程实践

 

1Spark读取文件系统的数据

 

1)在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数;

 

2)在spark-shell中读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;

 

3)编写独立应用程序(推荐使用Scala语言),读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;通过sbt工具将整个应用程序编译打包成 JAR包,并将生成的JAR包通过 spark-submit 提交到 Spark 中运行命令。

 

2编写独立应用程序实现数据去重

 

对于两个输入文件AB,编写Spark独立应用程序(推荐使用Scala语言),对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。

 

输入文件A的样例如下:

 

20170101    x

 

20170102    y

 

20170103    x

 

20170104    y

 

20170105    z

 

20170106    z

 

输入文件B的样例如下:

 

20170101    y

 

20170102    y

 

20170103    x

 

20170104    z

 

20170105    y

 

根据输入的文件AB合并得到的输出文件C的样例如下:

 

20170101    x

 

20170101    y

 

20170102    y

 

20170103    x

 

20170104    y

 

20170104    z

 

20170105    y

 

20170105    z

 

20170106    z

 

3编写独立应用程序实现求平均值问题

 

每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。下面是输入文件和输出文件的一个样例,供参考。

 

Algorithm成绩:

 

小明 92

 

小红 87

 

小新 82

 

小丽 90

 

Database成绩:

 

小明 95

 

小红 81

 

小新 89

 

小丽 85

 

Python成绩:

 

小明 82

 

小红 83

 

小新 94

 

小丽 91

 

平均成绩如下:

 

(小红,83.67)

 

(小新,88.33)

 

(小明,89.67)

 

(小丽,88.67)

 

posted @ 2024-01-26 21:04  庞司令  阅读(3)  评论(0编辑  收藏  举报