spark安装

两种方式

一、与程序集成

1.1与spring boot集成

可以根据需要添加依赖,都会自动添加spark-core

<!-- spark-streaming  scala version:2.12-->
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>
    <version>3.2.0</version>
</dependency>

或者

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.12</artifactId>
    <version>3.2.0</version>
    <scope>provided</scope>
<dependency>
需要注意的是janino包会有版本冲突

 

2.2普通maven(需要有spark的jar包,所以只能先安装spark,但并不是用)

eclipse新建maven project,添加Library,把spark安装目录下的jar目录所有都包含进去

Add Library...  -  User Library

 

二、独立部署(ubuntu和mac下部署)

独立部署会自带spark-shell,可以用来验证测试。

网络大部分首先安装hadoop,然后安装scala,部署很长时间,但实际

spark包spark-2.4.7-bin-hadoop2.7.tar既包含hadoop,又包含scala,入门使用可以了。

 

2.1 获取spark-2.4.7-bin-hadoop2.7.tar

2.2 放到合适的位置,然后解压tar -xf spark-2.4.7-bin-hadoop2.7.tar

2.3 环境变量

ubuntu配置环境变量

 

1. 在/etc/profile中配置:
export SPARK_HOME=/opt/spark/spark-2.0.1-bin-hadoop2.6 export PATH=
$PATH:${SPARK_HOME}/bin

2. 然后source /etc/profile

 

mac下配置环境变量

1.vim ~/.bash_profile

2.添加
export SPARK_HOME=/Users/anenyang/application/spark-2.4.7-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

3.退出,然后source ~/.bash_profile

 

2.4 启动spark-shell

 

2.5 下载测试不带hadoop的包 spark-2.4.7-bin-without-hadoop

  解压后测试例子运行报错

    Error: A JNI error has occurred, please check your installation and try again   

    Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/Logger 

  原因:spark依赖了hadoop的组件(例如log),即使local mode下不用HDFS仍然需要hadoop,除非自己改写。

posted @ 2020-11-25 17:12  jason47  阅读(366)  评论(0)    收藏  举报