04 2016 档案

spark API 之 combineByKey
摘要:以下代码是combineByKey的一个例子,把执行过程展示出来。 RDD分区为1 RDD分区为2 阅读全文

posted @ 2016-04-28 12:16 luckuan1985 阅读(191) 评论(0) 推荐(0)

RDD执行延迟执行原理
摘要:简化版的RDD执行延迟执行原理 每个RDD在执行过程中,都会生成一个Iterator,涉及到的设计模式装饰模式。 只有当最后一个Iterator执行hasNext和next方法时,才会依次递归执行父RDD生成的Iterator的对应方法,然后在next方法中执行我们程序事先定义好的逻辑方法。比如ma 阅读全文

posted @ 2016-04-28 00:54 luckuan1985 阅读(489) 评论(0) 推荐(0)

spark应用运行机制解析1
摘要:spark应用运行机制解析1 bin/spark submit #设置SPARK_HOME if [ z "${SPARK_HOME}" ]; then export SPARK_HOME="$(cd " "/..; pwd)" fi disable randomized hash for stri 阅读全文

posted @ 2016-04-19 01:19 luckuan1985 阅读(979) 评论(0) 推荐(0)

spark streaming job生成与运行
摘要:spark streaming job生成 spark Streaming每次提交job的时候,会提交几个呢? DStreamGraph 分别根据每个outputStream生成job,也就是说有多少个outputStream,就会有多少job outputStream如何生成呢 DStream 这 阅读全文

posted @ 2016-04-13 10:54 luckuan1985 阅读(1571) 评论(0) 推荐(0)

spark的Task的序列化
摘要:Task类型 Spark一共有两种Task,一种是ResultTask,此Task只有job的最后一个stage才会生成,其他stage生成的Task是ShuffleTask。 Task生成 Task序列化 序列化代码 / Serialize a task and the current app d 阅读全文

posted @ 2016-04-13 01:33 luckuan1985 阅读(1454) 评论(0) 推荐(0)