spark学习进度11——Spark运行方式 - 戈瑾

1、类似于：hadoop jar; [主要负责jar包的提交];

2、语法：spark-submit [options] <app jar | python file> [app arguments]

通过- -help 查看参数：

参数options：

3、Spark自带examples样例提交任务：

（1）本地模式运提交：

1-路径：/kkb/install/spark2.2.0/examples/jars spark-examples_2.11-2.2.0.jar

2-提交jar包： spark-submit --master local --class org.apache.spark.examples.SparkPi spark-examples_2.11-2.2.0.jar 10

** --master : 运行在哪里

** local : 本地运行，local可以添加参数：local[1] 代表每台服务器需要1个核数，local[*]所有的核数，如果给的参数是*，虽然是本地模式，但是模拟的是集群模式。

** --calss:运行的是哪个类

** jar:x需要的jar包

** 参数 10：做10次运算

spark-submit --master local[*] --class org.apache.spark.examples.SparkPi spark-examples_2.11-2.2.0.jar 10

（2）集群模式提交：[真正的集群提交模式]

spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi spark-examples_2.11-2.2.0.jar 10

1、交互式的命令行。[spark-shell底层也是使用spark-submint 提交的]

2、启动命令：spark-shell --master spark://node01:7077

说明：

3、使用集合并行化的形式创建RDD

4、读取外部文件的形式创建RDD

备注：RDD是分布式的，读取数据的时候也是分布式的，其他服务器如果在指定的目录下没有指定的文件，就会报错，所以读取数据的时候最好是读取HDFS上的数据

posted on 2022-01-11 22:38 戈瑾阅读(94) 评论(0) 收藏举报

刷新页面返回顶部