摘要:
sparksession读jdbc import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} object DataFrameOperate { def main(args: Arr 阅读全文
posted @ 2020-07-19 18:18
认知源码
阅读(323)
评论(0)
推荐(0)
摘要:
spark的shuffle来自于宽依赖的算子,也就是父RDD的一个分区的数据要发送给子RDD的多个分区,本质是数据跨节点的移动,所以特别消耗性能。 spark1.6.3之前是hash shuffle, 优点 快-不需要排序,也不需要维持hash表 不需要额外空间用作排序 不需要额外IO-数据写入磁盘 阅读全文
posted @ 2020-07-19 16:08
认知源码
阅读(181)
评论(0)
推荐(0)
摘要:
广播变量object Main { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("readMysql").setMaster("local[2]") val sparkConte 阅读全文
posted @ 2020-07-19 09:40
认知源码
阅读(171)
评论(0)
推荐(0)

浙公网安备 33010602011771号