摘要: sparksession读jdbc import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} object DataFrameOperate { def main(args: Arr 阅读全文
posted @ 2020-07-19 18:18 认知源码 阅读(323) 评论(0) 推荐(0)
摘要: spark的shuffle来自于宽依赖的算子,也就是父RDD的一个分区的数据要发送给子RDD的多个分区,本质是数据跨节点的移动,所以特别消耗性能。 spark1.6.3之前是hash shuffle, 优点 快-不需要排序,也不需要维持hash表 不需要额外空间用作排序 不需要额外IO-数据写入磁盘 阅读全文
posted @ 2020-07-19 16:08 认知源码 阅读(181) 评论(0) 推荐(0)
摘要: 广播变量object Main { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("readMysql").setMaster("local[2]") val sparkConte 阅读全文
posted @ 2020-07-19 09:40 认知源码 阅读(171) 评论(0) 推荐(0)