spark安装

两种方式

一、与程序集成

1.1与spring boot集成

可以根据需要添加依赖，都会自动添加spark-core

<!-- spark-streaming  scala version:2.12-->
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>
    <version>3.2.0</version>
</dependency>

或者

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.12</artifactId>
    <version>3.2.0</version>
    <scope>provided</scope>
<dependency>
需要注意的是janino包会有版本冲突

2.2普通maven（需要有spark的jar包，所以只能先安装spark，但并不是用）

eclipse新建maven project，添加Library，把spark安装目录下的jar目录所有都包含进去

Add Library... - User Library

二、独立部署（ubuntu和mac下部署）

独立部署会自带spark-shell，可以用来验证测试。

网络大部分首先安装hadoop，然后安装scala，部署很长时间，但实际

spark包spark-2.4.7-bin-hadoop2.7.tar既包含hadoop，又包含scala，入门使用可以了。

2.1 获取spark-2.4.7-bin-hadoop2.7.tar

2.2 放到合适的位置，然后解压tar -xf spark-2.4.7-bin-hadoop2.7.tar

2.3 环境变量

ubuntu配置环境变量

1. 在/etc/profile中配置：
export SPARK_HOME=/opt/spark/spark-2.0.1-bin-hadoop2.6
export PATH=$PATH:${SPARK_HOME}/bin


2. 然后source /etc/profile

mac下配置环境变量

1.vim ~/.bash_profile

2.添加
export SPARK_HOME=/Users/anenyang/application/spark-2.4.7-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

3.退出，然后source ~/.bash_profile

2.4 启动spark-shell

2.5 下载测试不带hadoop的包 spark-2.4.7-bin-without-hadoop

　　解压后测试例子运行报错

　　　　Error: A JNI error has occurred, please check your installation and try again 　　

　　　　Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/Logger　

　　原因：spark依赖了hadoop的组件(例如log)，即使local mode下不用HDFS仍然需要hadoop，除非自己改写。

posted @ 2020-11-25 17:12 jason47 阅读(376) 评论(0) 收藏举报

刷新页面返回顶部

jason47

spark安装

公告