05、Spark

05、Spark shell连接到Spark集群执行作业

5.1 Spark shell连接到Spark集群介绍

Spark shell可以连接到Spark集群,spark shell本身也是spark的一个应用,是和Spark集群的一种交互方式。每次action动作的执行,都会对应一个job。

5.2 连接方式指定

#进入Spark bin目录
$>cd /soft/spark/bin

#连接到Spark master的RPC端口
$>spark-shell --master spark://s101:7077

注意:spark://s101:7077地址是在spark webui中显式的Spark master RPC端口,如下图所示:

微信截图_20180609230607

连接成功,进入如下画面:

微信截图_20180609233105

5.3 在集群上实现word count

启动spark-shell后,读取hdfs上的文件,实现word count。操作步骤和在local模式下没有本质的不同,除了文件路径指定的是hdfs路径之外,其他部分均是相同的。shell操作如下:

$scala>sc.textFile("hdfs://mycluster/user/centos/1.txt")
	.flatMap(_.split(" "))
	.map((_,1))
	.reduceByKey(_+_)
	.collect

执行之后,运算结果如下图所示:

微信截图_20180610075819

查看spark webui界面显示结果如下图所示:

微信截图_20180610080009

微信截图_20180610080029

微信截图_20180610080102

posted @ 2018-08-27 18:25  大道至简(老徐)  阅读(304)  评论(0编辑  收藏  举报