南边雪

2018年8月25日

摘要：网上查阅一些资料，收集整理如下： 1、通用性 spark更加通用，spark提供了transformation和action这两大类的多个功能api，另外还有流式处理sparkstreaming模块、图计算GraphX等等；mapreduce只提供了map和reduce两种操作，流计算以及其他模块阅读全文

posted @ 2018-08-25 11:43 南边雪阅读(1200) 评论(0) 推荐(0)

2018年8月23日

SparkSQL--数据源Parquet的加载和保存

摘要：一、通用的load和save操作对于Spark SQL的DataFrame来说，无论是从什么数据源创建出来的DataFrame，都有一些共同的load和save操作。load操作主要用于加载数据，创建出DataFrame；save操作，主要用于将DataFrame中的数据保存到文件中。 Java版阅读全文

posted @ 2018-08-23 19:49 南边雪阅读(2222) 评论(0) 推荐(0)

SparkSQL -DataFrame与RDD的互转

摘要：创建DataFrame使用SQLContext，可以从RDD、Hive表或者其他数据源，来创建一个DataFrame。以下是一个使用JSON文件创建DataFrame的例子： Java版本：JavaSparkContext sc = ...; SQLContext sqlContext = new 阅读全文

posted @ 2018-08-23 10:20 南边雪阅读(741) 评论(0) 推荐(0)

2018年8月22日

sparkSQL 简介

摘要：一、Spark SQL的特点 1、支持多种数据源：Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术：in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性：对于SQL的语法解析器、分析阅读全文

posted @ 2018-08-22 17:23 南边雪阅读(349) 评论(0) 推荐(0)

DAGScheduler stage 划分算法

摘要： DAGScheduler stage 划分算法 stage划分算法很重要，对于spark开发人员来说，必须对stage划分算法很清晰，知道自己编写的spark Application被划分成了几个job，每个job被划分成了几个stage，每个stage包括哪些代码，这样当发现哪个stage报错或者阅读全文

posted @ 2018-08-22 15:03 南边雪阅读(676) 评论(0) 推荐(0)

spark-Worker内部工作流程

摘要：阅读全文

posted @ 2018-08-22 12:24 南边雪阅读(148) 评论(0) 推荐(0)

2018年8月21日

Master原理

摘要： 1、主备切换机制原理剖析与源码分析 2、注册机制原理剖析与源码分析 3、状态改变处理机制源码分析 4、资源调度机制源码分析（schedule()，两种资源调度算法）（核心）一、主备切换机制原理 1、Master主备切换机制：实际上指的就是，在Active Master挂掉之后,切换到Standby 阅读全文

posted @ 2018-08-21 22:25 南边雪阅读(318) 评论(0) 推荐(0)

sparkContext初始化机制

摘要： sparkContext初始化机制要点： 1、TaskSchedular如何注册，application、Excutor 如何反向注册 TaskScheduleImpl 即 TaskSchedular， SparkDestroySchedularBackend底层接收TaskScheduleImp 阅读全文

posted @ 2018-08-21 17:01 南边雪阅读(333) 评论(0) 推荐(0)

spark基于yarn的两种提交模式

摘要：一、spark的三种提交模式 1、第一种，Spark内核架构，即standalone模式，基于Spark自己的Master-Worker集群。 2、第二种，基于YARN的yarn-cluster模式。 3、第三种，基于YARN的yarn-client模式。如果，你要切换到第二种和第三种模式，在提交阅读全文

posted @ 2018-08-21 14:05 南边雪阅读(410) 评论(0) 推荐(0)

spark-宽依赖和窄依赖

摘要：一、窄依赖（Narrow Dependency,）即一个RDD，对它的父RDD,只有简单的一对一的依赖关系。也就是说， RDD的每个partition ，仅仅依赖于父RDD中的一个partition，父 RDD和子RDD的partition之间的对应关系，是一对一的！这种情况下，是简单的RDD之间阅读全文

posted @ 2018-08-21 12:39 南边雪阅读(686) 评论(1) 推荐(0)

为更浪漫的事

公告