摘要: sparksession读jdbc import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} object DataFrameOperate { def main(args: Arr 阅读全文
posted @ 2020-07-19 18:18 认知源码 阅读(323) 评论(0) 推荐(0)
摘要: spark的shuffle来自于宽依赖的算子,也就是父RDD的一个分区的数据要发送给子RDD的多个分区,本质是数据跨节点的移动,所以特别消耗性能。 spark1.6.3之前是hash shuffle, 优点 快-不需要排序,也不需要维持hash表 不需要额外空间用作排序 不需要额外IO-数据写入磁盘 阅读全文
posted @ 2020-07-19 16:08 认知源码 阅读(181) 评论(0) 推荐(0)
摘要: 广播变量object Main { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("readMysql").setMaster("local[2]") val sparkConte 阅读全文
posted @ 2020-07-19 09:40 认知源码 阅读(170) 评论(0) 推荐(0)
摘要: 首先还是pom文件: <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.c 阅读全文
posted @ 2020-07-18 22:26 认知源码 阅读(301) 评论(0) 推荐(0)
摘要: flink读写mysql总是出问题,记录一下 先是pom文件: 1 <properties> 2 <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> 3 <maven.compiler.source>1.7</mave 阅读全文
posted @ 2020-07-16 20:32 认知源码 阅读(1441) 评论(0) 推荐(0)