10 Spark安装以及命令使用方法介绍

1.下载压缩文件并解压

 

 2.修改文件名,赋予权限

 

 

 

3.修改Spark的配置文件spark-env.sh

编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:

 

 

有了上面的配置信息以后,Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。如果没有配置上面信息,Spark就只能读写本地数据,无法读写HDFS数据。

配置完成后就可以直接使用,不需要像Hadoop运行启动命令。

 

 

 4.通过运行Spark自带的示例,验证Spark是否安装成功。

 

 过滤后的运行结果如下图示,可以得到π 的 5 位小数近似值:

 

5.采用本地模式,在CPU核心上运行spark-shell:

 

 

 或

也可以执行“spark-shell –help”命令,获取完整的选项列表。

 

输入scala代码进行调试

 

 

输入:quit 退出,也可以直接使用“Ctrl+D”组合键,退出Spark Shell。

 

 

 

 6.编写Scala独立应用程序

  • 安装sbt

“http://www.scala-sbt.org”下载安装文件sbt-1.3.8.tgz,保存到下载目录。

创建安装目录

 

 

解压

 

 

赋予权限并复制到创建的安装的目录下

 

 

在安装目录中使用下面命令创建一个Shell脚本文件,用于启动sbt

 

 增加可执行权限

 

 查看sbt版本

 

 

进入用户主文件夹,创建根目录和所需的文件夹结构

 

 

 在 ./sparkapp/src/main/scala 下建立一个名为 SimpleApp.scala 的文件

 

 

在./sparkapp 中新建文件 simple.sbt,声明该独立应用程序的信息以及与 Spark 的依赖关系

 

 

posted @ 2022-03-09 23:08  a咕噜咕噜  阅读(338)  评论(0编辑  收藏  举报