随笔分类 -  Spark

Spark-Study
摘要:计算连续 0_ : 表示按id分组时间排序的行号 1_ : 表示是否符合筛选条件, 例如卖出的钱/和上一条对比卖出的钱是不是2倍? 2_ : 找到连续行的结尾 3_ : 先filter 1_ 2_全是null的行, 用first( , true) 把连续的行分到一个组里. | consumer_id 阅读全文
posted @ 2021-05-11 11:03 一根咸鱼干 阅读(269) 评论(0) 推荐(0)
摘要:Structured Streaming Load过程 源码 https://blog.csdn.net/u011707542/article/details/82316308 自定义Source Sink https://blog.csdn.net/shirukai/article/details 阅读全文
posted @ 2021-04-28 12:33 一根咸鱼干 阅读(45) 评论(0) 推荐(0)
摘要:Spark 分区 tag: Spark, Spark Partitioner, Spark Repartition 2021-04-2513:36:44 星期六 version: spark-2.4.5 分区器 自定义key分发的逻辑仅在 RDD 级别适用。 Partitioner 自定义分区器 a 阅读全文
posted @ 2021-04-26 09:29 一根咸鱼干 阅读(122) 评论(0) 推荐(0)
摘要:#计算Spark StorageMemory Heap内存 tag: Spark, Spark Memory, Spark Storage Memory 2021-04-23 21:26:25 星期五 version: spark-2.4.5 Executor 进程 org.apache.spark 阅读全文
posted @ 2021-04-23 21:20 一根咸鱼干 阅读(538) 评论(0) 推荐(0)
摘要:Spark版本 1.3 Spark源码 Spark.createTaskScheduler TaskScheduler初始化过程 1.// SparkContext中 /** * Create a task scheduler based on a given master URL. * Return a 2-tuple of the scheduler backend and the ... 阅读全文
posted @ 2018-11-19 20:27 一根咸鱼干 阅读(282) 评论(0) 推荐(0)
摘要:Spark版本 1.3SparkContext初始化流程 1.0 在我们的主类 main() 方法中经常会这么写 val conf = new SparkConf().setAppName("name").setMaster("local") val sc = new SparkContext(co 阅读全文
posted @ 2018-11-19 13:12 一根咸鱼干 阅读(535) 评论(0) 推荐(0)
摘要:Spark start-all>> """Master启动流程""" Master类 class Master( host: String, port: Int, webUiPort: Int, val securityMgr: SecurityManager, val conf: SparkConf) extends Actor with Ac... 阅读全文
posted @ 2018-11-18 13:26 一根咸鱼干 阅读(181) 评论(0) 推荐(0)
摘要:Spark 版本:1.3 调用shell, spark-submit.sh args[] 首先是进入 org.apache.spark.deploy.SparkSubmit 类中调用他的 main() 方法 1.1 val appArgs = new SparkSubmitArguments(arg 阅读全文
posted @ 2018-11-18 13:20 一根咸鱼干 阅读(413) 评论(0) 推荐(0)