会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
南边雪
为更浪漫的事
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
下一页
2018年8月25日
spark和 mapreduce的比较
摘要: 网上查阅一些资料,收集整理如下: 1、 通用性 spark更加通用,spark提供了transformation和action这两大类的多个功能api,另外还有流式处理sparkstreaming模块、图计算GraphX等等;mapreduce只提供了map和reduce两种操作,流计算以及其他模块
阅读全文
posted @ 2018-08-25 11:43 南边雪
阅读(1183)
评论(0)
推荐(0)
2018年8月23日
SparkSQL--数据源Parquet的加载和保存
摘要: 一、通用的load和save操作 对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要用于将DataFrame中的数据保存到文件中。 Java版
阅读全文
posted @ 2018-08-23 19:49 南边雪
阅读(2219)
评论(0)
推荐(0)
SparkSQL -DataFrame与RDD的互转
摘要: 创建DataFrame使用SQLContext,可以从RDD、Hive表或者其他数据源,来创建一个DataFrame。以下是一个使用JSON文件创建DataFrame的例子: Java版本:JavaSparkContext sc = ...; SQLContext sqlContext = new
阅读全文
posted @ 2018-08-23 10:20 南边雪
阅读(737)
评论(0)
推荐(0)
2018年8月22日
sparkSQL 简介
摘要: 一、Spark SQL的特点 1、支持多种数据源:Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术:in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性:对于SQL的语法解析器、分析
阅读全文
posted @ 2018-08-22 17:23 南边雪
阅读(344)
评论(0)
推荐(0)
DAGScheduler stage 划分算法
摘要: DAGScheduler stage 划分算法 stage划分算法很重要,对于spark开发人员来说,必须对stage划分算法很清晰,知道自己编写的spark Application被划分成了几个job,每个job被划分成了几个stage,每个stage包括哪些代码,这样当发现哪个stage报错或者
阅读全文
posted @ 2018-08-22 15:03 南边雪
阅读(667)
评论(0)
推荐(0)
spark-Worker内部工作流程
摘要:
阅读全文
posted @ 2018-08-22 12:24 南边雪
阅读(148)
评论(0)
推荐(0)
2018年8月21日
Master原理
摘要: 1、主备切换机制原理剖析与源码分析 2、注册机制原理剖析与源码分析 3、状态改变处理机制源码分析 4、资源调度机制源码分析(schedule(),两种资源调度算法)(核心) 一、主备切换机制原理 1、Master主备切换机制:实际上指的就是,在Active Master挂掉之后,切换到Standby
阅读全文
posted @ 2018-08-21 22:25 南边雪
阅读(313)
评论(0)
推荐(0)
sparkContext初始化机制
摘要: sparkContext初始化机制 要点: 1、TaskSchedular如何注册,application、Excutor 如何反向注册 TaskScheduleImpl 即 TaskSchedular, SparkDestroySchedularBackend底层接收TaskScheduleImp
阅读全文
posted @ 2018-08-21 17:01 南边雪
阅读(328)
评论(0)
推荐(0)
spark基于yarn的两种提交模式
摘要: 一、spark的三种提交模式 1、第一种,Spark内核架构,即standalone模式,基于Spark自己的Master-Worker集群。 2、第二种,基于YARN的yarn-cluster模式。 3、第三种,基于YARN的yarn-client模式。 如果,你要切换到第二种和第三种模式,在提交
阅读全文
posted @ 2018-08-21 14:05 南边雪
阅读(407)
评论(0)
推荐(0)
spark-宽依赖和窄依赖
摘要: 一、窄依赖(Narrow Dependency,) 即一个RDD,对它的父RDD,只有简单的一对一的依赖关系。也就是说, RDD的每个partition ,仅仅依赖于父RDD中的一个partition,父 RDD和子RDD的partition之间的对应关系,是一对一的!这种情况下,是简单的RDD之间
阅读全文
posted @ 2018-08-21 12:39 南边雪
阅读(678)
评论(1)
推荐(0)
上一页
1
2
3
4
5
6
下一页
公告