Spark Scheduler内部原理剖析
摘要:转自:http://sharkdtu.com/posts/spark-scheduler.html 通过文章“Spark核心概念RDD”我们知道,Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织
阅读全文
spark 获取applicationID
摘要:在编写spark 程序时,有时需要获取job id 进行记录。 只需在程序中加入: 每个job提交后, 均有自己的监控页面。 采用spark restful api 监控job时,如: curl 127.0.0.1:4040/api/v1/applications 时, 只能获取一个applicat
阅读全文
spark job, stage ,task介绍。
摘要:1. spark 如何执行程序? 首先看下spark 的部署图: 节点类型有: 1. master 节点: 常驻master进程,负责管理全部worker节点。 2. worker 节点: 常驻worker进程,负责管理executor 并与master节点通信。 dirvier:官方解释为: Th
阅读全文
spark streaming 对接kafka记录
摘要:spark streaming 对接kafka 有两种方式: 参考: http://group.jobbole.com/15559/ http://blog.csdn.net/kwu_ganymede/article/details/50314901 Approach 1: Receiver-bas
阅读全文
使用sbt构建spark 程序
摘要:今日在学习scala和spark相关的知识。之前在eclipse下编写了wordcount程序。但是关于导出jar包这块还是很困惑。于是学习sbt构建scala。 关于sbt的介绍网上有很多的资料,这里就不解释了。参考:http://wiki.jikexueyuan.com/project/sbt-
阅读全文
spark textFile 困惑与解释
摘要:在编写spark测试应用时, 会用到sc.textFile(path, partition) 当配置为spark分布式集群时,当你读取本地文件作为输入时, 需要将文件存放在每台work节点上。 这时会有困惑,spark在读取文件时,是每台worker节点都把文件读入? 然后在进行分配? 会不会出现重
阅读全文
eclipse 配置scala开发环境
摘要:最近在学习spark相关知识。准备搭建eclipse开发环境。在安装过程中遇到的问题记录下来。 首先在scala网站上下载了scalaIDE:http://scala-ide.org/download/prev-stable.html 下载完成后,新建scala项目,在项目上右键, 选择proper
阅读全文
spark streaming 实战
摘要:最近在学习spark的相关知识, 重点在看spark streaming 和spark mllib相关的内容。 关于spark的配置: http://www.powerxing.com/spark-quick-start-guide/ 这篇博客写的很全面:http://www.liuhaihua.c
阅读全文