2020 年 7月 19 日随笔档案 - 认知源码

2020年7月19日

摘要： sparksession读jdbc import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} object DataFrameOperate { def main(args: Arr 阅读全文

posted @ 2020-07-19 18:18 认知源码阅读(323) 评论(0) 推荐(0)

spark shuffle

摘要： spark的shuffle来自于宽依赖的算子，也就是父RDD的一个分区的数据要发送给子RDD的多个分区，本质是数据跨节点的移动，所以特别消耗性能。 spark1.6.3之前是hash shuffle，优点快-不需要排序，也不需要维持hash表不需要额外空间用作排序不需要额外IO-数据写入磁盘阅读全文

posted @ 2020-07-19 16:08 认知源码阅读(181) 评论(0) 推荐(0)

spark 广播变量累加器

摘要：广播变量object Main { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("readMysql").setMaster("local[2]") val sparkConte 阅读全文

posted @ 2020-07-19 09:40 认知源码阅读(171) 评论(0) 推荐(0)

认知源码

探索认知底层原理

公告