摘要: Spark Standalone模式提交任务 Cluster模式: 执行流程 1、cluster模式提交应用程序后,会向Master请求启动Driver.(而不是启动application) 2、Master接受请求,随机在集群一台节点启动Driver进程。 3、Driver启动后为当前的应用程序申 阅读全文
posted @ 2018-11-24 13:16 阿文awen 阅读(2563) 评论(0) 推荐(1)
摘要: 反射方式构建元数据: 通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下 步骤: 1.SparkConf配置环境 2.SparkContext初始化上下文 3.SQLContext初始化SparkSQL上下文 4.创建一个普通的RDD(sc.textFile) 5.使 阅读全文
posted @ 2018-11-24 11:39 阿文awen 阅读(284) 评论(0) 推荐(0)
摘要: foreachRDD(SparkStreaming): SparkStreaming是流式实时处理数据,就是将数据流按照定义的时间进行分割(就是"批处理").每一个时间段内处理到的都是一个RDD.而SparkStreaming中的foreachRDD方法就是在处理每一个时间段内的RDD数据. DSt 阅读全文
posted @ 2018-11-24 10:37 阿文awen 阅读(1354) 评论(0) 推荐(0)