hadoop 上跑 python job 引入 第三方依赖的解决办法

1,首先要确保hadoop上的python 版本和自己开发机器上最好是统一版本。

2,在hadoop上引入第三方库时,可以将job 依赖的所有第三方的third-party package都放进 ./lib 中

   使用tar 打包 成 tgz格式(注意如果此处没有使用 -z而命名为tgz,使用--archives提交该文件的时候,会引起job的失败 )

3, --archives 参数 参考hadoop streaming的指南文档,会自动上传到job 的task目录并且自动解压缩,可以使用#表示解压缩后的文件夹名称

4,注意在python 脚本中添加sys.path.insert(0,'lib_Path') 把打包解压之后的lib路径添加进去。

5, 最后还要注意python脚本的第一行要写#!/usr/bin/env python 否则提示 import x server error!

posted on 2013-07-22 15:22  Harveyaot  阅读(1483)  评论(0编辑  收藏  举报

导航