摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3903478.html 本文将以一个简单的WordCount为例来看看Job的提交过程 由输出的日志可以看出job的提交过程主要经过了SparkContext-》DAGSchedul... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3885162.html安装基础环境: Hadoop – 2.2.0 Linux – Centos 6.4 Java – 1.7.0_51 Maven – 3.2.1 (... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3879151.html 在SparkContext创建过程中会调用createTaskScheduler函数来启动TaskScheduler任务调度器,本文就详细分析TaskScheduler的工作原... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3872785.html SparkContext是应用启动时创建的Spark上下文对象,是一个重要的入口类。本文主要分析下在SparkContext类创建过程中进行的一些重要操作: 1、创建SparkC... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3868718.html 本文主要分享一下如何构建Spark源码分析环境。以前主要使用eclipse来阅读源码的,但是针对用scala写的spark来说不是太方便。最近开始转向使用idea 首先http:... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3858065.html 为了更深入的了解spark,现开始对spark源码进行分析,本系列文章以spark 1.0.0版本源码作为分析对象。今天主要分析下standalone部署方式的启动过程 1、... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3833985.html 最近在使用spark开发过程中发现当数据量很大时,如果cache数据将消耗很多的内存。为了减少内存的消耗,测试了一下Kryo serialization的使用代码包含三个类,Kryo... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3832405.html一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。 相比于MapRed... 阅读全文
摘要:
原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3824554.html本文基于CentOS6.4系统介绍基于RHadoop平台的搭建,Hadoop的搭建可以参考http://www.cnblogs.com/tovin/p/3818908.html,以下着重介绍在Had... 阅读全文
摘要:
原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3823968.html为了更好的学习scala语言,本文介绍如何基于Maven来构建scala项目1、首先参照www.cnblogs.com/tovin/p/3822985.html这篇文章搭建基于eclipse的sca... 阅读全文