记录解决python在spark运行加载第三方库的问题

一般写python的我们经常会import一些常用的库,然后有时集群环境上的python没有这些库,怎么办呢?

通过一段时间的摸索发现有二种方式可以解决这个问题:

第一种方法:

下载对应python的pypi里面库的文件,注意这个要求是wheel后缀或者是zip的,然后上传到python的py文件

对应的目录下面:

可以看到解压后的文件是上面形式的,在这个文件目录下面import numpy 是没有问题的!!!

这个也是python package支持的一种形式,它会默认把当前路径加入到可执行的路径path,这样的话import就可以找到对应的库文件进行import。

 

第二种方法:

在第一种方法的基础上,我发现package的path默认是在python的lib的site-packages这个文件夹里面,so 我们可以这样做:

首先下载这些包:setuptools-36.6.0-py2.py3-none-any.whl

pip-8.1.0.tar.gz

然后把setuptools的文件解压到site-packages目录下:

解压tar -zxvf pip-8.1.0.tar.gz -C /op/

cd pip-8.1.0

python setup.py install

成功安装pip

然后就可以离线安装一些库了,下载wheel文件之后直接pip install ***.whl

可以看到可以import sklearn这个python常用的机器学习库了!!!

接下来我们测试一下pyspark可不可以import:

接下来就可以用库在spark上面调用,畅游spark吧。

posted @ 2017-10-17 18:11  Kaivenblog  阅读(5798)  评论(0编辑  收藏  举报