认知源码

2020年7月19日

摘要： sparksession读jdbc import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} object DataFrameOperate { def main(args: Arr 阅读全文

posted @ 2020-07-19 18:18 认知源码阅读(324) 评论(0) 推荐(0)

spark shuffle

摘要： spark的shuffle来自于宽依赖的算子，也就是父RDD的一个分区的数据要发送给子RDD的多个分区，本质是数据跨节点的移动，所以特别消耗性能。 spark1.6.3之前是hash shuffle，优点快-不需要排序，也不需要维持hash表不需要额外空间用作排序不需要额外IO-数据写入磁盘阅读全文

posted @ 2020-07-19 16:08 认知源码阅读(183) 评论(0) 推荐(0)

spark 广播变量累加器

摘要：广播变量object Main { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("readMysql").setMaster("local[2]") val sparkConte 阅读全文

posted @ 2020-07-19 09:40 认知源码阅读(177) 评论(0) 推荐(0)

2020年7月18日

spark读写mysql

摘要：首先还是pom文件： <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.c 阅读全文

posted @ 2020-07-18 22:26 认知源码阅读(301) 评论(0) 推荐(0)

2020年7月16日

flink 读写mysql

摘要： flink读写mysql总是出问题，记录一下先是pom文件： 1 <properties> 2 <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> 3 <maven.compiler.source>1.7</mave 阅读全文

posted @ 2020-07-16 20:32 认知源码阅读(1442) 评论(0) 推荐(0)

探索认知底层原理

公告