hadoop 上跑 python job 引入第三方依赖的解决办法

1,首先要确保hadoop上的python 版本和自己开发机器上最好是统一版本。

2,在hadoop上引入第三方库时，可以将job 依赖的所有第三方的third-party package都放进 ./lib 中

使用tar 打包成 tgz格式（注意如果此处没有使用 -z而命名为tgz，使用--archives提交该文件的时候，会引起job的失败）

3, --archives 参数参考hadoop streaming的指南文档，会自动上传到job 的task目录并且自动解压缩，可以使用#表示解压缩后的文件夹名称

4，注意在python 脚本中添加sys.path.insert(0,'lib_Path') 把打包解压之后的lib路径添加进去。

5，最后还要注意python脚本的第一行要写#!/usr/bin/env python 否则提示 import x server error！

posted on 2013-07-22 15:22 Harveyaot 阅读(1483) 评论(0) 编辑收藏举报

刷新页面返回顶部

Trouble & Time are both my friends