将博客搬至CSDN

感谢cnblog 多年来的陪伴,暂时需要搬家至别处。

  • spark.default.parallelism只有在处理RDD时才会起作用,对Spark SQL的无效。
  • spark.sql.shuffle.partitions则是对sparks SQL专用的设置
  • spark 提交缓慢https://blog.csdn.net/u010543388/article/details/78142250 实际spark 和hive on spark要分开设置, 一个设置上传普通jar文件夹,一个在hive-site设置,上传纯净版jar文件夹
  • Spark开启hive非严格模式可以通过conf设置,参考官网https://spark.apache.org/docs/latest/configuration.html#dynamically-loading-spark-properties 例如--conf spark.hive.exec.dynamic.partition.mode=nonstrict,个人认为优于通过spark SQL改,但是尽管有提示cdh版仍然需要使用sql设置
  • Spark 参数中严禁空格比如包名引号里面的最后位置,参数间的空格过多也会报错
  • spark.memory.fraction
    默认值,0.6
    用于存储和执行的内存
posted @ 2021-05-07 10:38  曲水修竹  阅读(59)  评论(0)    收藏  举报