spark-sumbit(PySpark)

python不仅在获取外部传参跟Scala、Java有区别,还在提交Spark任务上也有区别。
python不像Java、Scala项目那样,可以通过Maven将项目的一些资源(jar、resource...)打成一个jar包提交到集群上,它不能打包(暂时不知道怎么打包),每次都是通过spark-submit命令去提交、运行对应的.py文件。
如果我python要用到其他资源怎么办呢?通过spark-sumbit命令里的--files--archirves参数来添加。

另外,还要声明PYSPARK_PYTHONPYSPARK_DIRVER_PYTHON这两个环境变量的地址

posted @ 2025-05-14 16:06  MrSponge  Views(17)  Comments(0)    收藏  举报