上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 45 下一页
摘要: 引言 Checkpoint 到底是什么和需要用 Checkpoint 解决什么问题: Checkpoint 运行原理图 Checkpoint 源码解析 1、RDD.iterator 方法,它会先在缓存中查看数据 (内部会查看 Checkpoint 有没有相关数据),然后再从 CheckPoint 中 阅读全文
posted @ 2018-06-19 14:44 大葱拌豆腐 阅读(848) 评论(0) 推荐(0)
摘要: 一、概述 本文将介绍ResourceManager在Yarn中的功能作用,从更细的粒度分析RM内部组成的各个组件功能和他们相互的交互方式。 二、ResourceManager的交互协议与基本职能 1、ResourceManager交互协议 在整个Yarn框架中主要涉及到7个协议,分别是Applica 阅读全文
posted @ 2018-06-19 14:09 大葱拌豆腐 阅读(15384) 评论(1) 推荐(2)
摘要: 概述 checkpoint 的机制保证了需要访问重复数据的应用 Spark 的DAG执行图可能很庞大,task 中计算链可能会很长,这时如果 task 中途运行出错,那么 task 的整个需要重算非常耗时,因此,有必要将计算代价较大的 RDD checkpoint 一下,当下游 RDD 计算出错时, 阅读全文
posted @ 2018-06-19 10:48 大葱拌豆腐 阅读(954) 评论(0) 推荐(0)
摘要: 1、sql语句的模块解析 当我们写一个查询语句时,一般包含三个部分,select部分,from数据源部分,where限制条件部分,这三部分的内容在sql中有专门的名称: 当我们写sql时,如上图所示,在进行逻辑解析时会把sql分成三个部分,project,DataSource,Filter模块,当生 阅读全文
posted @ 2018-06-19 09:46 大葱拌豆腐 阅读(1407) 评论(0) 推荐(0)
摘要: 1.提交应用程序 在提交应用程序的时候,用到 spark-submit 脚本。我们来看下这个脚本: 可以看出来 spark-class 脚本才是真正的提交程序的,spark-submit 脚本只是在其上封装一层,并传参 org.apache.spark.deploy.SparkSubmit 给它。这 阅读全文
posted @ 2018-06-15 22:19 大葱拌豆腐 阅读(700) 评论(0) 推荐(0)
摘要: 1.Spark 属性Spark应用程序的运行是通过外部参数来控制的,参数的设置正确与否,好与坏会直接影响应用程序的性能,也就影响我们整个集群的性能。参数控制有以下方式:(1)直接设置在SparkConf,通过参数的形式传递给SparkContext,达到控制目的。(通过set()方法传入key-va 阅读全文
posted @ 2018-06-15 22:02 大葱拌豆腐 阅读(476) 评论(0) 推荐(0)
摘要: SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的代码优化,生成以及执行流程,所以 sql,dataframe,datasets 的入口都是 sqlContext。 可用于 阅读全文
posted @ 2018-06-15 18:57 大葱拌豆腐 阅读(535) 评论(0) 推荐(0)
摘要: 一个job的生命历程 (1)所有的action算子都会触发一个job的调度,经过多次不同的runjob重载后停在这里调度 submitJob (2)调用eventProcessLoop方法,并发送 JobSubmitted 消息给DAGSchedulerEventProcessLoop(DAGSch 阅读全文
posted @ 2018-06-15 00:00 大葱拌豆腐 阅读(672) 评论(0) 推荐(0)
摘要: mr的shuffle mapShuffle 数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的 在某个节点上启动了map Task,map Task读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数,然后环形缓存区的 阅读全文
posted @ 2018-06-14 23:41 大葱拌豆腐 阅读(5785) 评论(0) 推荐(0)
摘要: 1.诊断内存的消耗 在Spark应用程序中,内存都消耗在哪了? 1.每个Java对象都有一个包含该对象元数据的对象头,其大小是16个Byte。由于在写代码时候,可能会出现这种情况:对象头比对象本身占有的字节数更多,比如对象只有一个int的域。一般这样设计是不合理的,造成对象的“浪费”,在实际开发中应 阅读全文
posted @ 2018-06-14 22:21 大葱拌豆腐 阅读(443) 评论(0) 推荐(0)
上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 45 下一页