spark安装
两种方式
一、与程序集成
1.1与spring boot集成
可以根据需要添加依赖,都会自动添加spark-core
<!-- spark-streaming scala version:2.12--> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>3.2.0</version> </dependency>
或者
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.2.0</version> <scope>provided</scope>
<dependency>
需要注意的是janino包会有版本冲突
2.2普通maven(需要有spark的jar包,所以只能先安装spark,但并不是用)
eclipse新建maven project,添加Library,把spark安装目录下的jar目录所有都包含进去
Add Library... - User Library
二、独立部署(ubuntu和mac下部署)
独立部署会自带spark-shell,可以用来验证测试。
网络大部分首先安装hadoop,然后安装scala,部署很长时间,但实际
spark包spark-2.4.7-bin-hadoop2.7.tar既包含hadoop,又包含scala,入门使用可以了。
2.1 获取spark-2.4.7-bin-hadoop2.7.tar
2.2 放到合适的位置,然后解压tar -xf spark-2.4.7-bin-hadoop2.7.tar
2.3 环境变量
ubuntu配置环境变量
1. 在/etc/profile中配置:
export SPARK_HOME=/opt/spark/spark-2.0.1-bin-hadoop2.6 export PATH=$PATH:${SPARK_HOME}/bin
2. 然后source /etc/profile
mac下配置环境变量
1.vim ~/.bash_profile
2.添加
export SPARK_HOME=/Users/anenyang/application/spark-2.4.7-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
3.退出,然后source ~/.bash_profile
2.4 启动spark-shell
2.5 下载测试不带hadoop的包 spark-2.4.7-bin-without-hadoop
解压后测试例子运行报错
Error: A JNI error has occurred, please check your installation and try again
Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/Logger
原因:spark依赖了hadoop的组件(例如log),即使local mode下不用HDFS仍然需要hadoop,除非自己改写。