将博客搬至CSDN
感谢cnblog 多年来的陪伴,暂时需要搬家至别处。
- spark.default.parallelism只有在处理RDD时才会起作用,对Spark SQL的无效。
- spark.sql.shuffle.partitions则是对sparks SQL专用的设置
- spark 提交缓慢https://blog.csdn.net/u010543388/article/details/78142250 实际spark 和hive on spark要分开设置, 一个设置上传普通jar文件夹,一个在hive-site设置,上传纯净版jar文件夹
- Spark开启hive非严格模式可以通过conf设置,参考官网https://spark.apache.org/docs/latest/configuration.html#dynamically-loading-spark-properties 例如--conf spark.hive.exec.dynamic.partition.mode=nonstrict,个人认为优于通过spark SQL改,但是尽管有提示cdh版仍然需要使用sql设置
- Spark 参数中严禁空格比如包名引号里面的最后位置,参数间的空格过多也会报错
- spark.memory.fraction
默认值,0.6
用于存储和执行的内存

浙公网安备 33010602011771号