随笔档案「2016年4月」 - luckuan1985

spark API 之 combineByKey

摘要：以下代码是combineByKey的一个例子，把执行过程展示出来。 RDD分区为1 RDD分区为2 阅读全文

posted @ 2016-04-28 12:16 luckuan1985 阅读(191) 评论(0) 推荐(0)

RDD执行延迟执行原理

摘要：简化版的RDD执行延迟执行原理每个RDD在执行过程中，都会生成一个Iterator，涉及到的设计模式装饰模式。只有当最后一个Iterator执行hasNext和next方法时，才会依次递归执行父RDD生成的Iterator的对应方法，然后在next方法中执行我们程序事先定义好的逻辑方法。比如ma 阅读全文

posted @ 2016-04-28 00:54 luckuan1985 阅读(489) 评论(0) 推荐(0)

spark应用运行机制解析1

摘要：spark应用运行机制解析1 bin/spark submit ＃设置SPARK_HOME if [ z "${SPARK_HOME}" ]; then export SPARK_HOME="$(cd " "/..; pwd)" fi disable randomized hash for stri 阅读全文

posted @ 2016-04-19 01:19 luckuan1985 阅读(979) 评论(0) 推荐(0)

spark streaming job生成与运行

摘要：spark streaming job生成 spark Streaming每次提交job的时候，会提交几个呢？ DStreamGraph 分别根据每个outputStream生成job，也就是说有多少个outputStream，就会有多少job outputStream如何生成呢 DStream 这阅读全文

posted @ 2016-04-13 10:54 luckuan1985 阅读(1571) 评论(0) 推荐(0)

spark的Task的序列化

摘要：Task类型 Spark一共有两种Task，一种是ResultTask，此Task只有job的最后一个stage才会生成，其他stage生成的Task是ShuffleTask。 Task生成 Task序列化序列化代码 / Serialize a task and the current app d 阅读全文

posted @ 2016-04-13 01:33 luckuan1985 阅读(1454) 评论(0) 推荐(0)

luckuan1985

04 2016 档案

spark API 之 combineByKey

RDD执行延迟执行原理

spark应用运行机制解析1

spark streaming job生成与运行

spark的Task的序列化

导航

公告