《Spark编程基础》(Scala版)第四章简答题答案(自制)
4 Spark 环境搭建和使用方法
简答题
T1 请阐述Spark的四种部署模式。🌱
答:
① Local 模式(单机模式)
② Standalone 模式(使用 Spark 自带的简单集群管理器)
③ YARN 模式(使用 YARN 作为集群管理器)
④ Mesos 模式(使用 Mesos 作为集群管理器)
⑤ Kubernets模式(部署在 K8S 集群上)
T2 请阐述 Spark 和 Hadoop 的关系。
答:两者可以部署在一起,相互协作,由 Hadoop 的 HDFS、HBase 等组件负责数据的存储和管理,由 Spark 负责数据的计算。
T3 请阐述 spark-shell 在启动时,< master-url > 分别采用 local、local[*] 和 local[K] 时,具体有什么区别。🌱
答:
① local:使用一个 Worker 线程本地化运行 Spark;
② local[*]:使用与逻辑 CPU 个数相同数量的线程来本地化运行 Spark;
③ local[K]:使用 K 个 Worker 线程本地化运行 Spark 。
T4 spark-shell 在启动时,采用 yarn-client 和 yarn-cluster 这两种模式有什么区别?
答:
① yarn-client:Spark 采用 YARN 集群模式,以客户端模式连接YARN集群;该模式适合运行交互类型的作业,常用于开发测试阶段;
② yarn-cluster:Spark 采用 YARN 集群模式,以集群模式连接 YARN 集群;当用户提交了作业之后,就可以关掉 Client,作业会继续在 YARN 上运行;该模式不适合运行交互类型的作业,常用于企业生产环境。
T5 请总结开发 Spark 独立应用程序的基本步骤。🌱
答:安装编译打包工具、编写Spark应用程序代码、编译打包和通过 spark-submit 运行程序。
T6 请阐述 Spark 集群环境搭建的基本过程。🌱
答:搭建 Hadoop 集群、安装 Spark、配置环境变量、配置 Spark、启动和关闭 Spark 集群。
T7 请阐述在集群上运行 Spark 应用程序的具体方法。
答:
① 启动 Spark 集群;
② 选择一个集群管理器,如 Hadoop YARN 管理器;
③ 在集群中运行应用程序 JAR 包;
④ 在集群中运行 spark-shell;
此时,在对应管理器的 Web 上可以查看到应用程序的运行情况。

浙公网安备 33010602011771号