spark-sumbit(PySpark)
python不仅在获取外部传参跟Scala、Java有区别,还在提交Spark任务上也有区别。
python不像Java、Scala项目那样,可以通过Maven将项目的一些资源(jar、resource...)打成一个jar包提交到集群上,它不能打包(暂时不知道怎么打包),每次都是通过spark-submit命令去提交、运行对应的.py文件。
如果我python要用到其他资源怎么办呢?通过spark-sumbit命令里的--files、--archirves参数来添加。
另外,还要声明PYSPARK_PYTHON和PYSPARK_DIRVER_PYTHON这两个环境变量的地址

浙公网安备 33010602011771号