win7下配置spark

1.安装jdk(配置JAVA_HOME,CLASSPATH,path)

2.安装scala(配置SCALA_HOME,path)

3.安装spark

Spark的安装非常简单，直接去Download Apache Spark。有两个步骤：
● 选择好对应Hadoop版本的Spark版本，如下图中所示；

● 然后点击下图中箭头所指的spark-1.6.2-bin-hadoop2.6.tgz，等待下载结束即可。

这里使用的是Pre-built的版本，意思就是已经编译了好了，下载来直接用就好，Spark也有源码可以下载，但是得自己去手动编译之后才能使用。下载完成后将文件进行解压（可能需要解压两次），最好解压到一个盘的根目录下，并重命名为Spark，简单不易出错。并且需要注意的是，在Spark的文件目录路径名中，不要出现空格，类似于“Program Files”这样的文件夹名是不被允许的。
解压后基本上就差不多可以到cmd命令行下运行了。但这个时候每次运行spark-shell（spark的命令行交互窗口）的时候，都需要先cd到Spark的安装目录下，比较麻烦，因此可以将Spark的bin目录添加到系统变量PATH中。例如我这里的Spark的bin目录路径为D:\Spark\bin，那么就把这个路径名添加到系统变量的PATH中即可，方法和JDK安装过程中的环境变量设置一致，设置完系统变量后，在任意目录下的cmd命令行中，直接执行spark-shell命令，即可开启Spark的交互式命令行模式。

4.安装hadoop

系统变量设置后，就可以在任意当前目录下的cmd中运行spark-shell，但这个时候很有可能会碰到各种错误，这里主要是因为Spark是基于Hadoop的，所以这里也有必要配置一个Hadoop的运行环境。在Hadoop Releases里可以看到Hadoop的各个历史版本，这里由于下载的Spark是基于Hadoop 2.6的（在Spark安装的第一个步骤中，我们选择的是Pre-built for Hadoop 2.6），我这里选择2.6.4版本，选择好相应版本并点击后，进入详细的下载页面，如下图所示，选择图中红色标记进行下载，这里上面的src版本就是源码，需要对Hadoop进行更改或者想自己进行编译的可以下载对应src文件，我这里下载的就是已经编译好的版本，即图中的hadoop-2.6.4.tar.gz文件。

　下载并解压到指定目录，然后到环境变量部分设置HADOOP_HOME为Hadoop的解压目录，我这里是F:\Program Files\hadoop，然后再设置该目录下的bin目录到系统变量的PATH下，我这里也就是F:\Program Files\hadoop\bin，如果已经添加了HADOOP_HOME系统变量，也可以用%HADOOP_HOME%\bin来指定bin文件夹路径名。这两个系统变量设置好后，开启一个新的cmd，然后直接输入spark-shell命令。

正常情况下是可以运行成功并进入到Spark的命令行环境下的，但是对于有些用户可能会遇到空指针的错误。这个时候，主要是因为Hadoop的bin目录下没有winutils.exe文件的原因造成的。这里的解决办法是：

去 https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号，然后进入到bin目录下，找到winutils.exe文件，下载方法是点击winutils.exe文件，进入之后在页面的右上方部分有一个Download按钮，点击下载即可。
下载好winutils.exe后，将这个文件放入到Hadoop的bin目录下，我这里是F:\Program Files\hadoop\bin。

5.运行spark-shell.cmd

posted @ 2018-09-10 16:14 一直爬行的蜗牛牛阅读(1153) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

一直爬行的蜗牛牛

win7下配置spark

公告